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Numerische Mathematik 3, 1—29 (1961) 


Das inhomogene natiirliche Randwertproblem 
und Fehlerabschatzungen fiir Naherungslésungen 
-Von 
N. J. LEHMANN 


1. Die Aufgabe 
Analog zu STIEFEL und ZIEGLER [1]! soll hier die als reellwertiges Variations- 
problem 


m ob b 
(1a) J(y) = = Sm, (y dx +2x'(y)-M-x(y) — 2| Sr (x) ydx +b’ -x(y)|—>stationar 
mit linear unabhangigen Randbedingungen 
m—1 
(1b) Wa(y)= X Loy» ¥ (a) +Buey”(b)] =a, (u=1,2,...,2 2m) 


gestellte Aufgabe als inhomogenes natiirliches Randwertproblem bezeichnet 
werden ?. 
Dabei ist x (y) ein Randvektor 


t'(y) = (y.(@), (a), --, YO" (a), ¥(B), .-- YW (B)), 


M eine symmetrische 2m-reihige Matrix, b ein 2m-dimensionaler Vektor. Be- 
zeichnet man die Gesamtheit der auf <a, b> (y—1)-mal stetig differentiierbaren 
Funktionen, die etwa noch eine stiickweise stetige »v-te Ableitung zulassen, mit 
C), so soll fiir die Koeffizientenfunktionen m,(x) und die Stérfunktion r(x) 


m,(x)EC”, — r(x)EC, — My, (x) S My, > O 


vorgeschrieben werden. Die Lésung y(x) wird in C™ bestimmt. 

Zu diesem Problem sei eine Naherungslésung w mit gewissen Differentiier- 
barkeitseigenschaften bekannt. Es wird dazu nach einer Fehlerschranke 
| p(x) — y(x)| S(x) gesticht, die méglichst auch eine Abhangigkeit von «x beriick- 
sichtigt. Spezielle Aufgaben dieses Typs wurden z.B. von TATARKIEWICZ [2], 
von BERTRAM [3] und bisher am ausfiihrlichsten von ILJIN [4] behandelt. Hier 
sollen allgemeingiiltige Ergebnisse nach einem neuen einheitlichen Verfahren 
gewonnen werden. 

Der Grundgedanke der Abschatzungen besteht darin, daB die in der expliziten 
Fehlerdarstellung (vgl. Gleichung (22) im Abschnitt 3) des Problems auftretende 
Greensche Funktion mittels der Einflu8funktionen leicht zu handhabender Neben- 





1 Das Literaturverzeichnis befindet sich auf S. 29. 
2 Was sich wenigstens teilweise aus der Bedeutung dieser Aufgabenklasse fiir die 


Mechanik rechtfertigen l4Bt. 
Numer. Math. Bd. 3 1 
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probleme ersetzt wird. Die dazu erforderlichen Hilfsmittel aus der Theorie der 
natiirlichen Randwertprobleme sind im Abschnitt 2 zusammengestellt. In den 
Abschnitten 3 bis § finden sich die Fehlergleichungen und zugehdrige allgemeine 
Abschatzungen. 

Die Genauigkeit der Resultate wird in Abschnitt 6 untersucht. Es 14Bt sich 
zeigen, daB und in welchem Sinne die erhaltenen Schranken optimal sind. 

Die schlieBlich in den Abschnitten 7 bis 9 erzielten speziellen Fehlerschranken 
werden im Abschnitt 10 durch einige einfache Beispiele illustriert. Als besondere 
Anwendung sei auf den Ersatz der Lésung einer Differentialgleichung 4. Ordnung 
durch die Lésung einer Naherungsgleichung 2. Ordnung hingewiesen. 

Der abstrakte Aufbau der entwickelten Fehlertheorie und Erweiterungen auf 
nichtselbstadjungierte Aufgaben folgen in spateren Mitteilungen. 


2. Hilfsmittel aus der Theorie der natiirlichen Randwertprobleme (1) 


Obwohl die Aufgabe zu den elementarsten Variationsproblemen gehort, 
konnten erst vor kurzem [5] neue Ergebnisse gewonnen werden, die eine be- 
sonders einfache und vollstandige Behandlung im Zusammenhang mit einer 
Greenschen Funktion gestatten. 

Den Ausgangspunkt fir diese Uberlegungen liefert die in der Aufgabe (1) 
auftretende in C™) definierte symmetrische Bilinearform 


(2) (0, Dg = Ef om, 0 da + xu) “BR -E(0), 


(Integrale werden im folgenden immer iiber das Grundgebiet <a, b> mit b>a 
erstreckt.) Mit dieser Abkiirzung erhalt Gieichung (1) die einfache Gestalt: 


(3) JY) =(¥% Wu — 2[frydx+ 6'-x(y)]->stationar, yeC™, W,(y)=4,. 


a ) Umformung fir (u,v)y im Raum der zuldssigen Funktionen W,. Der 
Raum W,, der zulassigen Funktionen soll in gewohnter Weise alle Elemente 
aus C™) enthalten, die zusatzlich die (1b) entsprechenden & linear unabhangigen 
homogenen Randbedingungen 


(4) W,(y)=0 (u=1,2,...,2 2m) 


erfiillen. Betrachtet man diese Gleichungen einmal als Bestimmungssystem fiir 
die 2m Randwerte 


y” (R;) (v= 0,...,m—1; R;=a,b) oder den Vektor r(y), 


so kénnen 2m—k davon offensichtlich beliebig vorgegeben werden. Man be- 
zeichnet solche als freie Randwerte und fiigt sie als Komponenten zu einem 
,, freien Randvektor‘ x,(y) zusammen. (4) erméglicht damit eine Auflésung in 
der Gestalt 


(4a) r(y) =C€-z,(y). 


Integriert man jetzt in der Bilinearform (2) mit «¢€W,, und v€C®™) partiell 
und benutzt zur Umformung der auftretenden Randterme die Gleichungen 
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(4)/(4a), so erhalt man eine Darstellung: 


(5) (u, v)y = J M(v) wd x + (Rif 1(v), ..., R24, (v)) «x, (u) 
mit 
M(v) = ¥ (— 1)" (om, 0). 
v=0 


Von den 2m—k Randausdriicken RM(v) (u=k+4,..., 2m) soll hier nur 
bemerkt werden, daB sie voneinander und von den Randbedingungen (4) linear 
unabhangig sind. Diese Umformung und die genaue Struktur der ,,natiirlichen‘‘ 
Randoperatoren RM wird in [5], Abschnitt 2, ausfiihrlich — wenn auch mit 
anderem Ausgangspunkt — diskutiert, so daB dies hier unterbleiben kann. 


b) Die zum natiirlichen Randwertproblem gehérige Greensche Funktion und einige 
threr Eigenschaften. Zur Vereinfachung wird jetzt angenommen, daB die mit der 
Gleichung (5) beziiglich des Problems (1) eindeutig festgelegte Randwertaufgabe 


M(y)=7(x), W(y)=0 (u=1,...,h), 


fiir y=0 nur die triviale Lésung besitzt*. Dann existiert eine zugehérige sym- 
metrische Greensche Funktion G(x, s), die als Lésung der Aufgabe (6a) 


(6b) y (x) = f G(x, s) r(s) ds 


liefert. (Man vgl. hierzu und fiir das folgende etwa [5], Abschnitt 4.) 

Diese Greensche Funktion und ihre Ableitungen erweisen sich fiir jede Variable 
als Elemente aus W,,: 
#*°G (x, 5) 


eee (0=0.4,...5m—1), 


(7) G%°(x,s)EW,(s) mit G%?(x,s) = 
G(x, s) ist, sofern x=s ausgeschlossen wird, fiir jede Variable 2m-mal stetig 
differentiierbar. 

Im Zusammenhang mit der Bilinearform (2) gilt fiir jedes uC W,, die Dar- 
stellung 


(8) ul) (x) = (G%°(x,s),u(s))y  (¢=0,...,.m—1), UweWy. 


Diese Gleichung wird spater als Hauptlemma verwendet, und daher soll auf 
einige spezielle Eigenschaften und Anwendungen hingewiesen werden. 

Mit u(s) =G* ¢(s, &) Wy (o=0,..., m—1) ergibt (8) fiir die Greensche Funk- 
tion die wichtige Identitat: 


(9) (G%° (x, s), G°?(s, E)) yp = Gr? (x, €). 


Wird auf u¢€ W,, ein linearer Operator L angewandt, der héchstens (m — 1)-te 
Ableitungen benétigt und zudem mit den nach Gleichung (2) in der Form 


3 Auf diese Einschrankung kann man verzichten, wenn die Greensche Funktion 


im erweiterten Sinne herangezogen wird. 
1 ” 
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(G(x, s), u(s))y auftretenden Integralen vertauschbar ist, liefert Gleichung (8): 
(10) L (u(x)) = (L(G (x, s)), «(s)) yy, ucW, *. 


Dabei bezieht sich der Operator L rechts auf die erste Variable in G(x, s). 
Speziell werden spater L(u)= f K(x, s) u(s)ds mit in beiden Variablen gleich- 

zeitig stetigem Kern und die Linearform der Randwerte L(u)=b’-r(u) ver- 

wendet. In beiden Fallen ist die Vertauschbarkeitsforderung offensichtlich erfiillt. 


c) Die Umschreibung des natiirlichen Randwertproblems in quadratische Gestalt. 
Als erste Anwendung der bereitgestellten Hilfsmittel soll das natiirliche Varia- 
tionsproblem in eine Gestalt gebracht werden, die sein Lésungsverhalten un- 
mittelbar erkennen laBt. 

Im ersten Schritt wird die Aufgabe fiir den Raum der zulassigen Funktionen 
W,, umgeschrieben. Dafiir wird eine weitgehend beliebige Funktion y,(x)€C?™ 
— etwa ein geeignetes Polynom — mit 


Waly) =A, (W=Ay ee Bi) 
bestimmt und fiir die in ()/ (3) zulassigen Funktionen der Ansatz 
(11) (x) = Yo(*) + u(x) mit wey, 
verwendet. Eintragen in (3) liefert 
T (Yo + 4) = (Yo +, Yo+ Mom — 2[S (x) (Yo + u) ax + b’-£ (yo +™)] 
= (u, u)y — 2[frudx+b'-x(u) — (u, ¥o)m] + C = J*(u) 
mit ; 
C= (Yo, Yo)m — 2[S 7 yodx + b’- r(yo)]- 
Benutzt man jetzt fiir die Linearform 
*L(u) =furds+b'-x(u)—(u, yo) («Ee Wy) 
die Darstellung (10), ergibt sich die symmetrische Gestalt 
(12) T (Yo + u) = J*(u) = (u — A,u— A)y + C* 
mit 
A(x) = fG(x,s)r(s)ds +b’ -x (G(x, 3)) — (G(x,s), ¥o(s))y und C* =C —(A,A)y°. 


Wegen G(x, s)€W,,(x) (o=0,..., m—41) sind die beiden ersten Terme in A(x) 
zulassige Funktionen, beim letzten ergibt Gleichung (5) mit 4w=G(x, s) CW, 
v= ye CU™) 


(G(x, 8), yo(s))ar = SM (yo) G(x, 8) ds + (RBLa (0), «++, RYn (Yo) «ty (G(x, 8), 
d.h. insgesamt A(x) € Wy. 


-4 Diese Beziehung kann — insbesondere, wenn die Form (u, v)y positiv definit 
ist und so die Schwarzsche und Dreiecks-Ungleichung zur Verfiigung steht — auch 
fiir ganz andersartige als die in dieser Arbeit betrachteten Fehlerabschatzungen 
niitzlich werderi. 

5 Pfeile weisen hier und im folgenden auf die Variable, auf die sich die Randwert- 
bildungen usw. in den jeweiligen Operationen beziehen. 
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d) Die Lésung der Variationsaufgabe (3)/(12). 
Satz 1. Ist die Form (u, u)y in W, positiv definit, so hat das Variations- 
problem (3) die einzige Lésung: 


(13) v(x) =f G(x,s) r(s)ds+b’-x(G (x, 8) + Yo (x) — (G(x, s), Yo(s)) at 
und liefert als Minimum: (vgl. (12)) 
Min J(y) = C*. 


Zusatz. Die Lésung und das Minimum sind von der speziellen Wahl von 
Yo (x) in (11) unabhangig. . 

Zum Beweis insbesondere der Eindeutigkeit der Lésung und damit auch der 
Unabhangigkeit von y ) wird zundchst zur Feststellung einer notwendigen Be- 
dingung die erste Variation gebildet. Mit 7€W,, folgt aus (12) die Variations- 
gleichung: 


(14a) (yn, u — A)y =0. 


Mit 7=G(x, s)€W,(s) und wegen u— ACW, ergibt hieraus die Identitat (8) 
sofort als eindeutige Lésung: 


(14b) u= A(x). 


Gleichung (12) zeigt, daB infolge der Definitheitsvorschrift dort ]*(u) = J(yv9+ 4) 
gerade das Minimum annimmt. Umschreiben dieser Ergebnisse mit (11) liefert 
alle Behauptungen. 

Satz 2. Ist die Form (u, “),, indefinit und existiert nach (6a) die Greensche 
Funktion (sonst vgl. FuBnote 3), so stellt (13) die einzige Funktion dar, fiir die 
J(y) stationar ist. Das Verhalten von J(y) entspricht dort einem Sattelpunkt. 
(Vgl. dazu auch Gleichung (17).) 


Das stationére Verhalten von /(y) fiir die Funktion (13) wird wieder iiber 
die Variationsbeziehungen (14a)/(14b) gefolgert, die ja von Definitheitsforde- 
rungen unabhangig sind. 

Zur genaueren Untersuchung des stationéren Punktes wird eine-Entwicklungs- 
satz fiir zulassige Funktionen herangezogen. 

Nach den Ergebnissen von [5], insbesondere nach dem Konvergenzsatz in 
7, c), 8, g) und (81a) 14Bt sich jedes w€W, nach det mit fy,y,dx=6,, ortho- 
normierten Eigenfunktionen von 


(15) y(x) =Af G(x,s) y(s) ds 
entwickeln: 
(16) u(x)=DLy,(x)fyudx  (weWy,). 


‘Die Konvergenz ist bis zur (m — 1)-ten Ableitung auf <a, b> absolut gleichmaBig, 


fiir die m-te Ableitung besteht Konvergenz im Integralmittel. 

Zudem erweist sich in [5], Abschnitt 10, die Form (u, v),, [dort mit (wMv) 
bezeichnet] als nach unten halbbeschrankt, so daB in (15) nur endlich viele 
negative Eigenwerte auftreten kénnen. 
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Mit (y,, “)w=A,(fG(x, s) y,(s)ds, u(x))w=A, fy,udx fir jedes uC Wy, (vgl. 
[5], Gl. (59b) — oder man verwendet einfach Gleichung (10)) ergibt (16) in 
Gleichung (12) fiir beliebiges u € W,, 


(17) J(¥o +4) =(u—A,u—A)y + C* =A, [Sy,[u—A]dx]}®?+C* u,AcWy 


und damit das behauptete Verhalten. (Man beachte noch, daB nur endlich viele 
negative Summanden auftreten.) 


e) Die zum natiirlichen Randwertproblem gehérige Differentialgleichung. Zu- 
folge Gleichung (13) und der nach (12) gegebenen Darstellung von (G(x, s), ¥9(s)) a 
war 


y (x) = ¥o(x) + J G(x, s) [r(s) — M(y)]ds + 
(18a) 


, ; t 
+ [b’-€ — (Rit.1 (Vo), tees R2n (Yo)) | yy (G(x, s)) 
die Lésung des natiirlichen Randwertproblems. 


Nach [5], Abschnitt 5,c) und mit den Definitionseigenschaften von yo(x) 
gehért hierzu die Randwertaufgabe (man beachte: y— y)y€W,): 


M(y)=r(x), W,(y)=Wi(y) =a, (u=1,...,R), 
Ri'(y)=B,  (w=k+4,...,2m), 


wobei 8, die Komponenten von b’-€= (8,41, .--, Ba) sind. 


(18b) 


3. Die Fehlergleichung 


Fiir die anschlieBenden Fehlerbetrachtungen gehen wir bei der Randwert- 
aufgabe (18b) vom Spezialfall a,—0 (w=1,...,) und daher yy=0 aus. Das 
bedeutet keine wesentliche Einschrankung, da die Randwertaufgabe fiir y — yyp=u 
immer von dieser Gestalt ist: 


M(u) = M(y) — M(y) =1(x) — M(9) =/*(x), — W, (u) =0, 
Rif (u).= RM (y) — RM (ye) = By — Rt (yo) = BE - 
Es sei jetzt p€C?™\W, eine Naherung fiir die Lésung u(x) nach (18c) der 
Aufgabe (1) — sie kann nach Ritz-GALERKIN, durch ein Differenzenverfahren 
mit Interpolation o. 4. gewonnen sein. Einsetzen in den Differentialoperator M 
und die Randbedingungen liefert 
M(y)=g, W,(y)=0, Ri (y) =8,, 

(o=1,...,k) (s¢=kh+4,...,2), 


(18c) 


(19a) 


so daB entsprechend zu (18a, b) mit y)=0 die Integraldarstellung 


(19b) 9 (x) =f G(x, 8) B(s) dS + (Way as +++» em) °F) (G(x, 8) 
besteht. Fiir den Fehler 
(20) f(x) = @(x) — u(x) 




















= BB 
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dieser Naherung erhalt man aus (19b) und (18a) bei yy=0 mit den ,,Defekten“ 
(21a) D(x) =g(x) —r(x) = M(gp) —r(x) im Inneren des Grundgebietes 
und am Rande 


(21b) 0’ = (8g 41 — Batis +++» 82m — Bam) = (Revi (gy), +++) Rem(y)) — 6-6: 


y { 
(22) f(x) = f G(x, s) D(s) ds +'-x,(G(x,5)). 
Bei den spater explizit ausgefiihrten Fehlerabschatzungen wird aus Bequemlich- 
keitsgriinden zumeist der Randdefekt }=0 angenommen — die Naherungs- 


funktion soll also den vorgeschriebenen Randbedingungen R’(y) =£,, geniigen. 
Dabei gestatten die bereitzustellenden Abschatzungen fiir die Greensche Funktion 
und ihre Ableitungen sofort auch die Einbeziehung der Randterme aus Glei- 
chung (22) in die Ergebnisformeln. 

Im nachsten Abschnitt soll die in diesen Darstellungen auftretende Green- 
sche Funktion abgeschatzt werden. Als Hilfsmittel werden dabei geeignete Nach- 
barprobleme ausgeniitzt. Allerdings muB dazu — im Gegensatz zu den bisherigen 
Uberlegungen — verlangt werden, daB die Form (u, u)y in W,, positiv definit 
ausfallt. 


4. Abschatzungssatze fiir Greensche Funktionen 
Hier und im folgenden soll die Bilinearform (2) immer als positiv definit 
vorausgesetzt werden: 


(23) (u,u),,>O fir weW,, £0. 


Dann ist (2) ein Skalarprodukt, fiir das die Schwarzsche und Dreiecksungleichung 
gilt. w||7=|/(u, «)y hat die Eigenschaften eines Betrages. 

Die nach 2. a), b) zu dieser Bilinearform gehérige Greensche Funktion und 
die nach (5)/(6a) zugehérigen Differential- und natiirlichen Randoperatoren wer- 
den weiterhin mit G(x, s), M(y), Ri‘ (y) bezeichnet. | 

Dieser Aufgabe wird ein Nebenproblem mit gleichartiger positiv definiter 
Bilinearform 


(24) (4, U)y = y Shu dx +z'(u)-H-x(r), 


'(y) = (¥ (a), --- 9" (a), v(B), «YO (d)) 
und 
h,(x)EC™, h(x) 2h, >0 


in einem Raum W, zugelassener Funktionen gegeniibergestellt. Zufolge der 
Definitheitsbedingung existiert eine symmetrische Greensche Funktion G, (x, s), 
die zur Form (24) und den zugehérigen Differential- und natiirlichen Rand- 
operatoren 

h 
(25) H(y) =X (— 1)" (4, y") und Ry (y) 

r—-O 
in gleicher Beziehung steht, wie G(x, s) zu (5) und (6a). 

(Bei den Anwendungen werden Nebenprobleme benutzt, deren iosungen 

explizit bekannt sind.) 
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Eine erste Beziehung zwischen G(x, s) und G(x, s) liefert 
Satz 3. Ist W,cW, (d.h. u.a. m=h) und 


(26) (u, u) 7 = (u,u),=0O fir weW, (oder auch we W,) 
so gilt: 


(27) |G%e(x, &)|?< Pee x) G%e(é, &) (o<h; o<™m) 


Gh° (&, ¢) G%? (x, x) (o<h; o<m). 
Diese Abschatzung erweist sich als eine unmittelbare Folge der Gleichung (8). 
Da nach (7) 
G(s, E) Wy (s) Wy, = (o< m) 
sein muB, folgt 
(28) G0 (x, &) = (G4°(x, 8); 6%"(s,8))y  (6<H). 


Wird hierauf die Schwarzsche Ungleichung angewandt, die Bedingung (26) und 
die Identitat (9) (auch auf G,, bezogen) beriicksichtigt, so findet man 
| Ge (x, &)|®S (GH° (x, 8), Gy? (x, 3) (GG, €), 6°, &)) un 
S C47 (x; x) (GG, €), OG, 8) w= GH (x, x) GHP(E, 8). 

Unter nochmaliger Ausnutzung der Symmetrie der Greenschen Funktion . 
G(x, )=G%°(E, x) ergibt sich schlieBlich alles tibrige. 

Wird in (27) x=&, o=o0<Ah vorgesehen, folgt 

Zusatz 1. Es ist 
(29a) G" (x, x) S GH" (x, x) (a<h) 
und (nochmals mit (27)) 
(29) |G%° (x, 8)|*< Gy"(x, 2) GHEE) (0, 0<A). 


Fiir praktische Belange erweist es sich oft als vorteilhaft, wenn die GréBen- 
beziehungen (26) fiir die zu G,G, gehdrigen Bilinearformen in etwas anderer 
Fassung benutzt werden. Man erhalt unter sonst gleichen Bedingungen zwei 
weitere Zusatze: 


Zusatz 2. Wird die Nebenbedingung (26) im Satz 3 abgewandelt zu: 
(26a) (u, u)yy =R(u,u),=0, ucW, und k=const>0, 
so folgt aus (27), (29a), (29b): 


4, GH (*, 2) Ge2(E,)  (0<h; Q<m) 


(30a) [Gre(x,é)?S 4) | 

; G3" (E, &) G*? (x, x) (o<h; o< my), 
(30b) G(x, x) < : G33" (x, x) (o<h), 
(30c) |G7e (x, £)|*? <5 GH? (x, x) GHe(E,é) (<A). 


Zum Nachweis braucht in der Herleitung zum Hauptsatz an Stelle von (26) nur 
(26a) benutzt zu werden. 
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Zusatz 3. Ist an Stelle der Beziehung (26) eine Abschatzung 
(26b) (4,0) S (4, Wo (0%) VEMy, = HEM 


bekannt, bei der (uw, %)9 eine beliebige quadratische Form auf W,, darstellt, so 
folgt mit Gleichung (28) fiir G%°(x, &): 
| Grex, 8)|* = (GH°(x,3), Ge, £)) i 
(34a) < (GCE, 3), G%2(8, £)) wp (G3°(x, 3), G7 (8, x))o 
< Gee (E, £) (G49(x, 8), G%7(8, x))o (<b; o<™m) 


(x und é gleichzeitig mit o und @ sind vertauschbar). 
Fir «<=& und o=e<h gewinnt man noch 


(31b) G(x, x) < (65°(x, 8), G3°(x,8))o (0<A). 


Fiir manche Untersuchungen ist es niitzlich, daB sich die betrachteten Green- 
schen Funktionen gelegentlich bequem durcheinander ausdriicken lassen — oder 
wenigstens einen Ansatz fiir verbesserte Abschatzungen liefern. Es gilt mit den 
bisherigen Bezeichnungen 


Satz 4. Ist W,=W, und bezeichnet man die Differenz 
(32) (4, 0) — (4, Uv) = (4, 2) 4 
als Bilinearform neu, so findet man unmittelbar 


G(x, s) = Gi°(x, s) + (G%°(x, £), Gr (E, 8). 


(33) = G%°(x, s) + (Gz;° (x, é), ), Ge (f,s)) 4 (¢,o<m=h). 


In dieser Beziehung l4Bt sich der letzte Term (Gi? ( (x, &), G®°(é, s)) 4 mittels 
der vorangegangenen Abschatzungen fiir G%®(x, s) immer durch Schranken er- 
setzen, die nur G,,(x, s) bendtigen. 

Zum Beweis werden die zwei mit W,= W,, nach Gleichung (28) entsprechenden 
Darstellungen fiir G und G,, unter Betrachtung von Symmetrieeigenschaften 
herangezogen : 


G(x, 8) = (Gy(x,),G(E,S))u» Gy (* 8) = (G(x, 4), Gul, 5)) a 
= (G(x, §), Gi (&,5))u, = (Gy (x, &), G(E, s)) m- 
Passende Subtraktion und anschlieBende Differentiation ergibt die Behauptungen. 
Zusatz. Durch formale Iteration der Gleichung (33) findet man 
(33a) G (x, s) = Gy (x, Ss) + Gy (%, 8) + +++ + Gtny(%, 8) +R, (%, 5), 


mit 
Gio) (x, s) — Gy (x, s) ’ Gin} (x, s) _ (Gin—1) (x, é), Gy (é, s))4 
und 


R,,(%, 8) = (Gtuy (x, &), G(E, 5) a- 
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Sofern die Ordnung der héchsten Ableitung in der Form (u, v), kleiner als m=h 
ausfallt, konvergiert 


R%°(x, s) +0 (6,0<m, aSx,sSb) 


in beiden Variablen absolut gleichmaBig, wenn und nur wenn fiir 1c W,, +0 
zusatzlich 2(u, u) > (u, 4) bleibt. 
Zur Bestatigung betrachtet man die Randwertaufgabe: 


H(y)=AA(y)+r mit A(y)=HA(y)—M(y), rec, 
(34) Wily)=0 (u=1,...,4), 
R¥(y)=AR4(y) (w= R+14,...,2m) mit Ri(y) = RE (y) — RM (y). 


Nach Voraussetzung hat A(y) niedrigere Ordnung als H(y). Da zudem die 
zugehérige Form (24) positiv definit ist, ordnet. sich die Aufgabe der friiher 
in [5] entwickelten Theorie M-definiter natiirlicher Eigenwertprobleme unter, 
aus der hier im wesentlichen ein Entwicklungssatz iibernommen wird: 

Die Eigenwerte der Aufgabe (34) sind reell und besitzen im Endlichen keinen 
Haufungspunkt. Die zugehérigen Eigenfunktionen y,€ C®”W, kénnen alle 
nach 


(35) (?,, Y)H = (%,, Po) A A, = | A,| 6, 
orthonormiert werden und ergeben fiir jedes «€W,, eine Entwicklung 


(36) w(x) = Ysgnd,(u, p,) 4 P(x) +4o(x), (Hs Mn > D (, P)| Aol 


die bis zu den (m—1)-ten Ableitungen absolut gleichmaBig konvergiert. Der 
Summand d,(x) ist eine ,,Nullfunktion‘‘ mit (m—41) stetigen Ableitungen, die 
alle wesentlichen Randbedingungen erfiillt und fiir jedes « € W, oder jede andere 
Nullfunktion d 


(37) (u,do)4=0, (dy,4)4=0 und (dy,d)),=0 
ergibt. 
Dieser gleiche Entwicklungssatz kann auch auf die Greensche Funktion 
G,,(x, s) angewandt werden, es ist 
(38) Gu(x,s) = Z sgn A, 2) HE) + go(x,s), 
wobei gy (x, s) beziiglich jeder Variablen eine Nullfunktion ist. 
AuBerdem erweist sich (34) als zur Integralbeziehung 


(39) y(x) =A (Gy(x, 8), ¥(s)).4+ S Gul, s) r(s) ds 


aquivalent. Mit einem Reihenansatz (36) fiir die Lésung und mit (35), (37), (38) 
erhalt man 


¥ 


y(x) = [G(x,s;Aa)r(s)ds mit G(x,s; 4) = >disen a, Se(S) gels) + o(%, Ss). 
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Dabei hat die Greensche Resolvente G(x, s; A) die gleichen Differentiierbarkeits- 
eigenschaften wie die Greensche Funktion. Hier ist besonders wichtig, daB 
G(x, s; A} fiir A=1 nach (34) zum Randwertproblem 


M(y)=r_ W,(y)=0, R¥ (y) =0 


(40) 
(u=0,...,) (u=k+1,...,2m) 


gehért und infolge der Stetigkeit in beiden Variablen also mit G(x, s) iiberein- 
stimmt: 


(4) G(x, s) = Zsgnd, Wl) 9) + g(x, 5). 


Mit diesen Entwicklungen erhalten die Ausdriicke im Zusatz (33a) fiir n=1 die 
Form: 


(42) Gin) (x, s) _ j sgn A,, Peh*) gels) , R,,(x, s) = pA sgn A, qty . 


Fiir die Konvergenz R,-—>0 (n->oo) erweist sich so die Bedingung |A,|>1 als 
notwendig und hinreichend. 

Entnimmt man nun aus der Extremwertdarstellung fiir die Eigenwerte 
— Gleichung (86) in [5] — oder mit den Entwicklungen (36) in W,: 


(43) [(ve,24) 4] a 2 (u, Pr) 4 < 


1 |(u, u) | 1 
Nu ore, Qe d 4, U)al __ 
(4, we = Su, W514 ” 


rain] A, ucWy (ut, 4)H min |A,| , 





so verlangt |A,|>1: 1> |(u, “)4|/(u, «), oder unter Beachtung der Erklarung 
fiir die Zahlerform: 








(u, U) py >t [(u, u)y , (u, U)s,) , 


woraus wegen der positiven Definitheit von (wu, u),, nur 2(u, u),>(u, u4)y als 
zusatzliche Bedingung folgt. 


5. Abschatzungen fiir die Fehlergleichungen 


Ausgangspunkt hierfiir ist die Fehlergleichung (22), bei der noch der Rand- 
defekt D verschwinden soll. (Seine Wirkung 1aBt sich in allen folgenden Ergeb- 
nissen ggf. additiv hinzufiigen.) 

Die Reihenfolge fiir die Abschatzungen hier und auch in den spateren Bei- 
spielen ist so gewahlt; daB zuerst die handlicheren Ergebnisse mitgeteilt werden. 

Vollstandigkeit ist nicht angestrebt, es sollen nur die typischen FaAlle dis- 
kutiert werden; desgleichen wird auf die nach dem gleichen Vorgehen mégliche 
Abschatzung der Fehlerableitungen verzichtet. 

Hat man fiir die Greensche Funktion G(x, s) des vorgelegten Problems etwa 
nach Abschnitt 4, Satz 3, unter Ausnutzung bekannter Nachbarprobleme eine 
Schranke bestimmt: 


(44a) |G(x,s)| < K,(x) K2(s), K,;(x) 20 (zumeist mit K,(x) = K(x), 


so ergibt sich aus (22) sofort als 
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Abschatzung 1. 
[f(x)| S Ky (x) [K.(s) | D(s)| ds S K, (x) VJ K3(s) ds VJ D*(s) ds 





(44b) S K, (2) [max K,(9)] [|D(9)| ds max, K, (x) K,(s) f|D(s)| ds 

Bei einer Ausnutzung des Satzes 4 wird fiir die Greensche Funktion eine Dar- ‘ 
stellung 

(45a) G(x, s) = Gy(x, s) + Ry(x,s) mit bekanntem G,,(x, s) 


erhalten. Fiir R,,(x,s) sei — unter Ausnutzung der Ergebnisse des Satzes 3 — 
eine Abschatzung méglich: 


(45 b) | Ru (x, s)| S Ky (*) K,(s). 
Dann liefert (22) sofort als 
Abschatzung 2. 
}(x) = f Gy(x, s) D(s) ds + f Ry (x, s) D(s) ds 
= f G,(x, s) D(s)ds + 0K,(x) f K,(s)|D(s)|ds mit |#| <1. 
(Den Fehlerterm kann man natiirlich noch wie in (44b) umgestalten.) 


Diese zweite Fehlerschranke wird oft bessere Ergebnisse als Abschatzung 1 
liefern — dafiir ist die Handhabung umstandlicher. 


(45¢) 


Eine andere Fehlerschranke ergibt sich, wenn unter der Voraussetzung W,, c Wj, 
die Greensche Funktion G(x,s) nach (28) dargestellt und unmittelbar in die 
Fehlergleichung (22) eingesetzt wird: 


(x) = J G(x, s) D(s) ds = f (Gy(x,é), G(E, s))w D(s) ds. 
Mit G(x, s)=G/(s, x) und der Vertauschungsbeziehung (10) wird daraus: 
(46) f(x) = f G(x, s) D(s) ds = (G(x, &), f Gy(E, s) D(s) ds) y. 


Erst jetzt setzen Abschatzungen ein. 


Der Vorteil liegt darin, daB der Defekt nicht mehr durch seinen Betrag 
ersetzt, wird, sondern dafiir mit f G,,(&,s) D(s) ds als Naherung fir den tat- 
sachlichen Fehler gearbeitet werden kann. 

Analog zum friiheren sollen nur einige typische Méglichkeiten zur Ausnutzung 
dieser Beziehung vorgefiihrt werden: 

Als erstes seien die Voraussetzungen (26a) fiir die Anwendungen des Satzes 3, 
d.h. 


(26a) (u,u)y = k(u,u),=0 fir wEW, W,, £0 


erfiillt. Dann erhalt man aus (46) nach Anwendung der Schwarzschen Un- 
gleichung und mit (26a) 


sa? S (G(x, 8), GE. 2) aS GulG, 8) D(s) asf 
<j (G(x, 8), 6, »)) IS GulG, 8) D(s) ds fr 
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und daraus mit der Identitat (9) sowie der Schranke (30b) fiir die schlieBlich 
aufgetretene Greensche Funktion als 


Abschatzung 3. 
(47) |4(#)| S = VGal, *) |S Gu(G, s) D(s) dsp. 


Der letzte Faktor 14Bt sich dabei noch umformen. Nach (9) ist G(x, s)= 
(Gu (x, €), Gy (&, s))y, so daB mit der Symmetrie von G,(x,s) und bei zwei- 
maliger Ausnutzung von (10) 


IS Gy(E, s) D(s) ds ix = (f G(x, &) D(x) dx, f Gy(E, s) D(s) ds), 
= ff G,(x,s) D(x) D(s)dxds 


bestatigt wird. Fir praktische Zwecke ist es wichtig, daB x=s als Naht- und 
Symmetrielinie von G(x, s) erscheint und daher folgt: 


IS Gr, =) Ds) aslis = SS Gu (x, s) D(x) D(s)dxds 
=2 Pi [J J Gul s) D(s) ds] D(x) dx. 


(48a) 


(48b) 


Tritt schlieBlich wie im Abschnitt 4, (26b) an Stelle der Bedingung (26a): 
(26b) (u,v) S (u, Uo (v,v)y veWy, ueW, und W,cW,, 
dann wird mit v(é)=G(x, &), u(é)= { G,(é, s) D(s) ds und (9) aus der Fehler- 
darstellung (46): 

| #(x)|? S (G(x, €), G(x, &))ae (f Gu (E, s) D(s) ds, f Gy(&, s) D(s) ds)g = 

= G(x, x) (f Gz (é, s) D(s) ds, f Gy(&, s) D(s) ds) 9, 
und hieraus mit der Schranke (31 b) fiir G(x, x) 
Abschatzung 4. 


(49) | F(*)|? S (Gu(, 8), Gu(X, 8))o (Sf Gul, s) D(s) ds, f Gy(E, s) D(s) ds). 
Fiir den zweiten Faktor lassen sich dabei zumeist Vereinfachungen wie in 
Gleichung (48a, b) angeben. 


Analog kann auch Satz 4 ausgenutzt werden. (22) und (33) ergeben bei ver- 
schwindendem Randdefekt 


f(x) = J Gy(x, s) D(s) ds + (G(x, 5), S Gy(s, &) D(@) 4é)a. 


Der zweite Term kann schlieBlich wieder mit Satz 3 durch G,,(x,s) und 
J G,(«, ) D(é)dé allein eingeschrankt werden *. 


6. Genauigkeitsfragen 
a) Ein Vergleich der Abschatzungen aus Abschnitt 5. Man erkennt sofort, daB 
bei sonst gleichen Voraussetzungen die Genauigkeit der Abschatzungen 3 und 4 
des vorigen Abschnitts die der entsprechenden Abschatzung 1 iibertrifft. 





* Zusatz bei der Korrektur: Formeln dieser Art werden in einer spateren Mit- 
teilung zusammen mit numerischen Integrationsformeln verwendet. 
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Zum Beispiel folgt aus (47)/(48a) mit |G,(x, s)|*<SG,,(x, x) G,(s,s) [Glei- 
chung (29b) fir H=M]}: 


[#2 S 35 Gale, *) Jf Gu(x, 8) D(x) Dis) dx ds 


1 ae at 
S 55 Gul, 2) Lf VGu(s, s) | D(s)| ds}. 

Das gleiche Ergebnis findet man als Abschatzung 1, wenn dort fiir (44a) die 
nach der Voraussetzung (26a) der Abschatzung 3 giiltige Ungleichung (30c): 
|G(x,s)|?< i Gy (x, x) Gy (s, s) 

herangezogen wird. 

Analog verhialt es sich mit der Abschatzung 4. 

Weiter interessiert die Frage, ob und wann die zu einer Aufgabe (18)/(19) 
erhaltenen Fehlerschranken eines Typs, z. B. 


(50a) | f(x)|* < K(x, x) ff K(x, s) D(x) D(s)dxds 
oder 
(50b) f(a) SK f|D(s)| as, 


in der die Stérfunktion r(x) und die Naherung g(x) nur zur Bildung des Defektes 
D(x) bendtigt wird, durch gleichartige, aber bessere Schranken ersetzt werden 
kénnen — weil z.B. in (50b) K noch verkleinert werden darf. 

Zur Beantwortung dieser Frage ist es nétig, einige fiir die Beurteilung von 
Abschatzungen allgemein wichtige Begriffe zu klaren. 

b) Die bet einer Fehlerabschatzung ausgenutzte Information tiber das vorgelegte 
Problem. Zunachst wird fiir die anschlieBenden Uberlegungen eine wohldefinierte, 
aber sonst beliebige Klasse von Aufgaben vorgelegt und mit St bezeichnet ®. 
Speziell wird es sich um Teilmengen aus der Gesamtheit der natiirlichen Rand- 
wertprobleme handeln, die durch Definitheitsforderungen, einige Randbedin- 
gungen, Einschrankungen iiber Koeffizienten usw. festgelegt sind. 

M(EM) stellt eine Einzelaufgabe aus Pt — ein Element dieser Klasse dar. 

Die Gesamtheit von gewissen gesetzmaBig bestimmten Angaben iiber M 
— hier speziell die Angabe von Koeffizientenfunktionen der Differentialgleichung 
(18b) oder Schranken dafiir oder allgemeiner Funktionale dariiber, Angaben 
iiber die Konstanten in den Randtermen des Problems usw. — soll eine Infor- 
mation iiber M genannt werden und erhalt die Bezeichnung J=93(M). Zumeist 
muB verlangt werden, daB § fiir jede Aufgabe M aus § definiert ist’. 

Eine Information 3(M) wird man vollstandig beziiglich 2% nennen, wenn 
damit die Aufgabe M €M eindeutig festgelegt ist. 

Zwei Informationen 3,=9,(M) und 3,=3,(M) tiber MEM werden als dqui- 
valent bezeichnet: 3, ~9,, wenn durch die in 3, enthaltenen Angaben iiber M 





* Mit groBen gotischen Buchstaben werden. im folgenden Gesamtheiten verschie- 


denster Art benannt. 
? Die Theorie der Informationsausnutzung bei numerischen Fragen wird hier nur 


soweit entwickelt, als das fiir die Untersuchung des vorgelegten Problems notwendig 
erscheint. : 
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beziiglich Yt auch die Angaben aus 9, bestimmt sind und umgekehrt. Rechen- 
technisch brauchen die Informationen also nicht gleichwertig zu sein, z.B. ent- 
halte M die Aufgaben: 


—(my’')'+ny=r, y (0) = y(1) =0, m,n, re C2), m(x)=m>0. 


Dann sind 3, = {m(x), n2n>0} und 3,={m(x), m’(x), m'’(x), n2>n> 0} defini- 
tionsgemaB aquivalent — aber rechentechnisch recht verschieden. (Natiirlich 
wird man diesen Aquivalenzbegriff gelegentlich einengen miissen und etwa ver- 
langen, daB sich die Angaben von 9%, rational aus denen von 9, gewinnen lassen 
und umgekehrt ’.) 

Eine Information $,=9,(M) ist in 3,=9,(M) enthalten 3,¢9,, wenn mit 
%2(M) unter Beachtung von I auch alle Angaben auis 9,(M) festgelegt sind. 
wi C 2 und J, C3, ergibt 3. ~ 32. 

Zwei Informationen kénnen auch unvergleichlich sein. 

c) Optimale Informationsausnutzung mit Schranken nach Gleichung (50). Die 
Aufgabenklasse J? sei jetzt von der speziellen, friiher fiir die Abschatzungen in 
Abschnitt 5 vorausgesetzten Art. Die Funktion K(x, s) aus der Schranke (50a) 
sei nach den Satzen aus den Abschnitten 3, 4, 5 unter Ausnutzung einer Infor- 
' mation J=3(M) iiber M, die auf ganz M definiert sein soll, der Aufgabe M 
gesetzmaBig und eindeutig zugeordnet : 


(54a) K(x, s) = T, (3(M)). 


Entsprechend ist fiir (50b) K= max K (x, x) bestimmt: 
(51 b) K =T,(3(M)). 


Allerdings wird zur Bestimmung von K meist schon eine Teilinformation 
%$r(M)<3(M) ausreichen: 


(51) K = T;(%;(M)) ®. 


Die Schranken des Typs der Gleichung (50a) wird man dann als optimal beziig- 
lich der iiber die Aufgabe M€EM benutzten Informationen 3(M) bezeichnen, 
wenn es méglich ist, zu jeder Information 3(M) damit vertragliche Aufgaben 
aus J und zugehérige Naherungen g(x) nachzuweisen, deren Fehler von den 
mit (50a) gegebenen Schranken in einem beliebig vorgegebenen Punkte x, € <a, b> 
um beliebig wenig abweicht. 

Im gleichen Sinne ist (50b) optimal, wenn es zu jeder benutzten Information 
3r(M) vertragliche Aufgaben und Naherungen gibt, deren Fehlermaximum be- 
liebig an die mit (50b) gegebene Schranke heranreicht. 

Zur Entscheidung, ob eine Schranke (50a, b) beziiglich der darin verwerteten 
Informationen iiber M €M optimal ist, wird bewiesen: 


Satz 5. Die Schranke (50a, b) ist beziiglich der nach (51a, b) ausgenutzten 
Information 3(M) bzw. 3,(M) iiber die Aufgaben aus optimal, wenn K(x, s) = 
Gy(x,s) aus einem Nebenproblem H nach Gleichung (24)/(25) stammt, das mit 





8 Man vgl. die Beispiele in 6.d). 
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der benutzten Information iiber M fiir jedes M eindeutig definiert ist und in 
MM liegt und das iiber sich die gleichen Informationen wie M liefert: 


(52) H=H(3(M))EM und 3(H)=3(M)®. 
Zum Beweis wird das nach Satz 5 einer beliebigen Aufgabe MEM zuge- 
ordnete Nebenproblem H=H(3(M)) naher untersucht. Nach (24)/(25) ist 


G,(# s) die zugehérige Greensche Funktion und liefert zu jeder Naherungs- 
lésung p fiir H nach (22) [Randdefekt Null gesetzt] die Fehlergleichung 


(53) f(x) = J Gy(%,s) D(s)ds mit D(s)=H(y) —r. 
Wahlt man g(x) folgendermaBen: 
(54) D(x) = >0O fir %E<%,%>, %,%,€<a,b>, |x — ml <e 
=0 sonst und f|D(s)|\ds=1, 

(da H(y)=r+D, W,(y)=0, RE (y)=B, mit G,(x,s) wie bei (19a, b) gelést 
werden kann, ist diese Annahme statthaft), so erhalt der Fehler von g(x) nach 
(53) die einfache Gestalt: 
(55) f(x) = G,(#,€) mit x,...€...%, |x, —é|<e. 

Als Fehlerabschatzung (50a, b) ist dieser Aufgabe H nach Satz5 und Be- 
dingung (52) genau-wie der urspriinglichen Aufgabe M 
| | #(x)|? S Gy (x, x) Sf Gy(x, s) D(x) D(s)dxds, 

| #(x)| S max G,(x, x) [| D(s)| ds 
zugeordnet. Mit der speziell nach (54) gewahlten Naherung g(x) wird daraus 
re fe |x, —E|<e 
Myo Noe Xe, |x, —|<e, 


(56a) 


(56b) | f(x)|*<Gy(x, x) Gy(E,m) mit 
bzw. wenn G,,(x, x) fiir x, sein Maximum annimmt, aus der zweiten Abschatzung 


(56c) | #(+)| S Gu(%, m)- 


Die Fehlerschranken (56b)/(56c) stimmen fiir e—>0 mit dem tatsadchlichen Fehler 
(55) im Punkt x, beliebig genau iiberein. Die Schranken (56a), die nach (52) 
ja sowohl der anfanglichen Aufgabe M als auch H zugeordnet sind, kénnen 
daher nicht mehr verbessert werden, sie sind beziiglich der von MEM ausge- 
nutzten Informationen optimal.’ 

Zur Illustration dieser Uberlegungen folgen in Tabelle 1 einige 

d) Beispiele. (Die Schranken usw. stammen aus dem nachsten Abschnitt, 
hier soll nur geklart werden, ob die herangezogenen Informationen iiber die 
jeweiligen Aufgaben auch optimal genutzt wurden.) 

Fiir alle diese Aufgaben bleibt H €M,;, aber nur bei M,, M,, M, ist J(H) = 3 (M) 
erfiillt, bei M, wird 3 (H) = {m + &, of, 3(M)={m,, m,}. Bis auf M, sind daher 
alle herangezogenen Informationen optimal geniitzt. Die schon bei 2%, benutzten 
Informationen werden erst im Beispiel I, voll gewertet. Da die Informationen 
in M, die von M, iiber die gleiche Aufgabe einschlieBen, kénnen die fiir M, er- 
haltenen optimalen Schranken nur besser als bei ®t, ausfallen. 
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Tabelle 1 
Aufgabenklasse | Genutzte Informationen | Nebenproblem | Schranken nach (50a, b)* 
My: ab 1 ‘ 
M(y)=—(m, y’)’ +o Vv |3(M) = {my} H(y)=— my", Gu (*,s)= 7 #(1—s), 
y(0)=9(1)=0, =3r(M) y(0)=y(1)=0 is Tas 
0, 0 m 
? Mo = m= m,> 7 4m, 
Ms: / 1— 
bis auf 3(M) = {aty, my} H(y)=— (m+ Be) y", Gu (x, s)= 20-3) ) , 
m,=m)>— 7m + “8 
i "Sr (y= {mit 22h |y()=9(1)=0 ; to 
; RT, 
M,: | | Sin ax Sina(1—s) 
Aufgabe wie bei M,  3(M)={my, m,} H(y)=— my" + mov, Gu (%, 8) = Bissau a 
= $r(M) 'y(0)= y(1)=0 | Eo 
oe x | K=- 2m, 4 zg > a= ma/m, 
M;: | | is : 
Aufgabe wie bei M, |%(M)={m,(x)} \H(y)=—(m, y ’, | Gu(x,s)=0(x) (1 —viayo(a). 
1 pe pto)= y(1)= ' ds 
>arian=t {mata oe a 





* Mit K(x,s)=Gy(%,s) fiir x<s und Kl(x,s)=Gy(s, x) fiir sS% sowie 
K= max Gy(%, 2). 
*€ 0,1) 
7. Spezielle Fehlerabschatzungen nach Abschnitt 5.1 


Es werden hier nur einige typische Beispiele durchgerechnet ; zur Illustration 
des praktischen Vorgehens werden dabei auch nichtoptimale Abschatzungen beach- 
tet. Grundsatzlich wird auf den Ersatz von Integralen durch Summen verzichtet. 


a) Randwertaufgaben 2. Ordnung. Als erstes werden die Randwertprobleme 
M: M(y)=—(my')' + my, m2m>0, m2zm,>—m,7?,* 
y(0) = y(1) =0 
mit der positiv definiten Bilinearform (u,v) = fm,u'v'dx+ fm uvdx vor- 
gelegt. Als Nebenprobleme dienen !°: 
I. A(y)=—my", TL. A(y)=—(my’')’, I. Aly)=— my" t+ my, 





y(0) = y(1)=0, y(0) = (1) =0, y(0)=y(1) = 
(u,v),=m,fu'v'dx, (u,v),=Jfmu'v'dx, (u,v) = 
G,(x,s) =—- x(1—s), Gy (%,S) = =m, fu'v'dx+ my fuvdx, 
my == (x) (1 ose v(x)/v(1)), Gy (x, s) = Cinax Gin a(1—s) 
2 hed maGina ’ 
mit v(x) = f an , mit a?=m/m. 





®Die im Abschnitt 1 allgemein gestellten Forderungen m,¢C) und y<eCc?@™ 
werden nicht mehr erwahnt. 

10 G,,(x, s) wird hier und spater nur fiir *<s angegeben und ist fiir sS% durch 
Gy (*, s)=Gy(s, *) zu erganzen. 
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Offensichtlich ist in jedem Falle Wj, =W, und bei m,=0 fiir jedes uC W,, 0: 
(u, U)s,=(u, &),,>0. Nimmt m, auch negative Werte an, muB fiir I, II sorg- 
faltiger abgeschatzt werden. Mit der Extremwertdarstellung fiir Eigenwerte 
nach [5], Gleichung (86), erhalt man fiir den gréBten negativen Eigenwert /_, 
(wenn alle Eigenwerte positiv sind, wird 1/A_,;=0O gesetzt)™ 


eee J my, u*® dx > My Suede . MM 1. 
672) 0S FT OR Fm wtds Soon m Sutds =m ae 


tng = min (0, rt) . 


Zuletzt wurde dabei f u'2dx>z? f u2dx, u€W, benutzt. Das ergibt 


(57b) J mowtax = Be. 5 [ mw tdx 

und daher 

(58) (u, 4) yy = [mu dat [ myutdx> (1+ % * 5) [ mud 
bzw. 


(u, U)y = R(u,u), mit. k= (1 





My 
zn? }° 


Durch die Forderung m)>=m,.> — m,x* wird in jedem Falle die Definitheit von 
(u, “),, und k>0 gesichert. 

Damit sind aber alle Voraussetzungen fiir den Satz 3, Zusatz 2 und die Ab- 
schatzung 1 im Abschnitt 5 erfiillt. Mit K, (x) =K,(x)= = Gu (x, x) und den 


jeweiligen Maxima davon auf <0, 1) folgt aus Gleichung (44): 





I. | f(x) ae om V(t ) [¥st=s |Di9ass in - [DI as, 
b(t ata): 





I. |S 55 o(i) y Yel ) [(v(4) — v( “lf Vols ) (¥(1) — v(s)] | D(s)| ds 








1 x 
1 ; ds 
= ak = “5 - [ |D(s)|as mit v(x) = rm 
III. lf(x)| Ss ts /Sinax Sina (1 — x) ) [ /Sin as Sina(1—s)|D(s)| ds 


S 
1 
~ 2m, 
Die Priifung der Bedingung (52) ergibt, daB III die Information 3, (M) = {m,, 1} 
iiber MEM, I nur 3, (M) = {m+ eh C%3(M) voll ausnutzt. Schranke II erfaBt 


3, (M) = {(1+ ws 5) m}. Wegen 3, 6%, %1C%q (aber nicht 3,¢3!) sind die 


einander entsprechenden Abschatzungen in II, III giinstiger als in I — erfor- 
dern jedoch auch héheren Rechenaufwand. 


= M/m,. 











11 Man vgl. auch hier Gleichung (43), wie diese, laBt sich (57a) mit (36) bestatigen. 


a ae 
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Ganz entsprechend kénnen auch andere Randbedingungen beriicksichtigt 
werden. Sei z. B. 


M: M(y)=—(my’)’+moy, mlm>0, Moz mp — 4m 
y(0)=y'(1)=0, m)=min(0,m,) und (u,v)y=fm,u'v'dx+ fm uvdx, 


dann folgt mit den Nebenproblemen’® 


I. H(y)=—my", Il. A(y)=—(my’)', Ul. Aly)=—my"+my, 





y(0) = y'(1) =0, y (0) = y"(1) =0, y(0) = y"(1) =0, 
(u,v)y=m,fu'v'dx, (u,v)y=fmu'v'dx, (u,v). = 
Gu(x,s)=—1 x, a =m, fu'v'dx+ mg fuvdx, 
m Gy (x, s) —_ m (s ’ Gy (x, s) = 
| 5 _ 1 Gina *Goja(i—s) 
My Cof a 


mit a*=m,/m, 


und nach (57)/(58), wobei f utd x> = f utdx fir «CW, —W, benutzt wird, 


analog zum vorangegangenen Beispiel 


LMS a J VIPOlass zy f\DUlds, k= (1+ 0%), 


te 1 
1 ¥ 1 f ds 
II. wos i Vixe rary ot boat (s)|ds< kJ i [|D J ds, 





III. '|f(x)| < 


m aids 


aati mit a*=m,/m,. 


Auch hier niitzt III die Information §={m,, m,} voll aus. Von I, II gilt 
das nur fir 3,(M)= {m+ me} und 3,= {(1+ =) m,\. Analog zum voran- 
gegangenem Beispiel liefern daher II und III genauere Ergebnisse als I. 


Als AbschluB dieser Beispielgruppe soll noch eine Aufgabe mit ausschlieBlich 
natiirlichen Randbedingungen betrachtet werden: 


M: M(y) =— (m y')' + my, m=m> 0, mM, = 0, 
a y(0) =m, (0) y'(0), By(1)=—m(1)y'(1) und «,B>0. 
Die zugehérige Bilinearform 


(4, v)y = Sf m,u'v'dx + fm uvdx+au(0)v(0) +B u(1) v( 

88 Fir die Einschrankung m, =O wurden die von x unabhangigen Resultate bereits 
in [2] und spater in [4] erhalten — allerdings sind die dort gefiihrten Untersuchungen 
nur auf den speziellen Fall zugeschnitten (vgl. auch FuBnoten 13 und 14). 

2* 


| 





[/(x)|S 
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ist offensichtlich positiv definit. Als Nebenprobleme werden 


I. H(y) =— (m y')’, Il. H(y)=— my", 
Randbedingungen wie bei 2, a y(0) =m, y’(0), By(1)=— m y'(1), 
(4, U)y = (4, U)y = 


= fm,u'v'dx +au(0)v(0)+Bu(1)v(1), =m, fu'v'dx +au(0)v(0) +Bu(1)v(4), 
~ (o(ey+ 2) (oy—o(s) 4 1 pe Ree FL ec A A 
tee (v(2)+ £) (o(1)—-09)+ 4) fe (+ ral a+). 











' | 

v(1)+ +7 a +% ztF | 

x | 

. a ds | 
mit v(x) = mil | 


herangezogen. Da in beiden Fallen (u, u)y=(u, u)y20 (u€Wy=Wy=C) fiir 
ganz M ausfallt, ergibt sich zum Schlu8 mit dem Maximalwerte von G,,(x, x) 


(%€ <0, 1): . 











v(x) + + v(t) — v(x) + F 
y( =) ( al Ey v(s) + = ) (v4) — 9) + #)|Dlas 
seis 
| st(oay+t fp 4) J Deas, 
wobei im Falle I: im Falle II: 
x 1 
v(x) = o(4) = [ 48 v()=s ¥(1) = 


m Oy my ty 


gesetzt pies mu8. Mit den Informationen J, (M) = {m,} fiir I und 3,(M) = {m} 
fiir II erweist sich in ganz M: HEM und §(H)=3(M), so daB die genannten 
Informationen im Rahmen der benutzten Abschatzungstypen und beziiglich M 
optimal verwertet werden. Wegen 3, >%, ist die Schranke I gewiB nicht schlechter 
als die von II. Auf die volle Ausnutzung der Information $= {m, m,}, die wie 
in den vorangegangenen Fallen unter III méglich ist, wird hier verzichtet. 


b) Randwertaufgaben 4. Ordnung. Als erstes sei 
M: My) = (my y")"— (m, y')' + my,  m,2m,>0, m,m =O, 
y (0) = y"(0) = y"(1) = my (1) y’(1) — mg (1) ¥”"(1) = 0 
mit 
(4, Vy = f mau vo" dxt fm u'v'dx+ fm uvdx 
vorgelegt. Als Nebenproblem wird 


H(y) =(m,y"")", —-y(0) = y'(0) = y"(1) = y’"(1) = 0 
mit 


woe ments, Guam FSMD ar (es 


18 Dieses Ergebnis wird auch in [4] von a durch spezielle Abschatzungen 
gefunden. 





Pe ae 
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benutzt. Offensichtlich ist fiir w¢W,=W,: (u, u)y=(u, 4)y=0, so daB iiber 
Satz 3 und die Abschatzung 1 aus Abschnitt 5 


[ fF (x—12 fF (sO? 4, 
l#(x)| < J =a wf) may 21D (s)I as 


Som, V8 J VF1D OI as S 5m, J IPOl4s 








oder auch 





1 
(1—12)? 
=f a at [ |D(s)| as 
folgt. 


Die ersten Schranken erweisen sich als optimal beziiglich der iiber M benutzten 
Informationen 3= {m,} >3,-= {my}. 

Das folgende Beispiel soll wieder einen Vergleich mit aus der Literatur be- 
kannten Ergebnissen erméglichen: 


Mm: M(y) 
(4, U)xg 
Als Nebenproblem kénnte H(y) = (m,’’)’’ benutzt werden, die zugehérige Green- 


sche Funktion ist verfiigbar. Wegen der zu langwierigen Rechnungen wird hier 
jedoch nur 


H(y) =, Wy =Wy, Gy (x, 8) =< 4(s — 1)9(38 — 245 — 2)™, 
—2 


| wie in der vorigen Aufgabe, (0) = y’(0) = y(1) = y’(1) =0. 


(14, U) yy = My fu! v0" dx 
herangezogen. 
Es bleibt (u, U) yy = (u, %),,. 


Als Schranken fiir den Fehler einer Naherung liefert Satz 3 mit der Abschat- 
zung 1 aus Abschnitt 5 


LU — xs { /34—>5)3 
(| S55 VAG — ap [ VFA — 5 |D(9)| ds 
1 s3(4—s)8 ‘agian 
Sta JV (1=s|D()| dss f\Delas. 
Die Information 3 = {m,} iiber M €M wird optimal genutzt, (52) ist offensichtlich 
erfiillt 1. 
Soll einmal auf die Beschrankung der Koeffizienten m,, m, nach unten ver- 
zichtet werden, so ist das analog zu den ersten Beispielen in 7, a) méglich. Es 
ergibt sich hier mit 


My = min. (0, m,(x)), to = en (0, mo (x)) 





und 
fwdx>S4n®*fudx, ful'%dx=(4,73)*fuedx (fir uc W,)* 


14 Die aus der Literatur [3], [4] bekannten von x unabhangigen Abschatzungen 
fiir diese Probleme 4. oder 6. Ordnung sind mindestens um deh Faktor 2 bzw. 16 
schlechter. 

18 Die Faktoren sind die kleinsten Eigenwerte von y!V=—Ay” und s!Ys=Ay 
(y¢ Wy), die aus [6] entnommen wurden. 
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an Stelle von Gleichung (57): 
i atin S (m, u’* +m, u*) dx > min m, fu’*dx+ my f urdx 








A+ «“eWg Jf m,u’*dx “4 € Wa m, fu’ 8dx 
Mm, fu'*dx + Mo futdx 
Tein m, [utd tseym, fu"8ds 
d.h. 
a OP 2 2 mw, Mo "2 
(4, ag = ff (mg "2+ my w'2+ mgt) dx > [1+ M4 Be | (mau tde. 


Sobald also 








me, We pan 
1+ Taim, + 73m, ~ "> ° 


ausfallt, folgt entsprechend zu (58): 
(u, #)y = R(u,%)y,  (wEW,), 
so daB in der o. a. Schranke fiir | /(x)| lediglich m, durch 


thy k= y+ 35 th + oa Mo 


ersetzt zu werden braucht. 


c) Randwertaufgabe 6. Ordnung. Hier wird nur eine einzelne Aufgabe unter- 
sucht: 


3 
M: M(y) => (— 1)’ (my), m2 ms>0, mo,m,m,=0, 
vy=0 . 


y (0) = y'(0) = y'"(0) = y(1) = y'(1) = ¥"(1) = 0 
mit der Bilinearform. 
(0, Wy = 3 fm, (wade. 
Als Nebenproblem dient “i 
H(y)=—m,y"', Gy(x,5) = [10s*— 5 xs(3s +4) + 29(6s*+3s+1)],™ 


Wy =Wyy mit (u, %)y =m, fu *dx< (u, u)y. 
Entsprechend zu den vorangegangenen Beispielen ergibt das 


1 7 ere 1 
Ml S a ya— 2} [ ss —9 \D(s)| 48S ome [IDO as. 
Beziiglich M ist hierin die Information 3(M)={m,} optimal genutzt™. 





8. Beispiele fiir Fehlerabschaétzungen nach Abschnitt 5.3 


a) Als Randwertproblem 2. Ordnung wird die schon in 5 a) als erste diskutierte 
Aufgabe ®: 


M(y)=—(my)" + my, m2m,>0, mam>—x2n*m,, y(0)=y(1)=0 
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vorgelegt. Unter ‘Ausnutzung der nach 7, a) zugehérigen Nebenprobleme, mit 
(58) und (46)/(47)/(48) ergeben sich die Schranken 


lf(x)/?< aa Gul, x) | f Gul, 8) D(s) ds], = Gul, 2) { [Gu(x,s) D(x) D(s)dxds 


A Gul, 2) {| f Gals, s) D(s) ds| D(x) dx 











#=0 ‘s=0 
mit? 
I. Gy (x, 8) = x(1— 5), 
Ls 4 | 

(x s s) | =1+ a, ’ 
II. Gy (2,8) =0(x) (1—0(s)/o(4)), 9(x) = f [2 | to = min (0, ma) 

(x<s) 0 
III. Gy(x, s) = Se at=m,/m, k=. 

(¥ Ss) 


Diese Ergebnisse kénnen noch in fiir praktische Anwendungen gevignetere Form 
gebracht werden. 


‘Fir I gelangt man mit 
‘ta—s) és 


Gy°(é,s) =) und juli, = fm, u'tdx 
s &é=Ss 


Mm 





zu 


| 1, ¢ 1 . 
[f(x)|?S ans *( t—s) {| f—sDias+ f (1 — s) Dis) ds| dé 


und nach partieller Integration weiter auf 
1 
IM? S Sage #1 — *) f (40) — CE S as J [A(é) — C}*ae 
0 
mit 


Mo 
ze 
m,n 





A(x) = f D(s) as, C= f a(x) as, k=1+ 
fr) 0 


Das entsprechende ergibt dic Umformung fiir IT: 


nos (— 29) fy 40 —oF§ 


1 

1 dé é 

= 4h i m, (6). ma = FEF 
0 0 

mit 


4 , 1 
o(x)= [i , A(x) = [owas C = fae ax/ _* batt ty. 
0 


m, (s) 
0 ' 0 
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FaBt man in diesen Schranken C als Parameter auf, so erweist sich der jeweils 
angegebene Wert gleichzeitig als giinstigster, bei dem die Fehlerschranke minimal 
wird. 

‘ Im Falle III wird auf eine Umformung verzichtet, es ist mit a? = m,/m,: 





1 x 
[f(x)/?<2 Cine + Cin a(1—+) b haa Gin a(1 — x) [ Dis) einasds| ax 





ot m? a* Cin? a 4 
< [ow einatt—x)| (D0) Ginasds| dz. 
2m? a*® Cof = xz=0 s=0 


Wieder sind hier mit §= {m,, m,} die Bedingungen (52) erfiillt, so daB beziig- 
lich M die angegebene Schranke die beste der Klasse nach (50a) fiir die genutzten 
Informationen darstellt. 


b) Randwertprobleme 4.Ordnung. Auch hier soll an die Aufgaben aus 7. b) 
angekniipft werden. Mit den dort eingefiihrten Nebenproblemen und deren 
EinfluBfunktionen G,(x, s) erhalt man genau wie in 8. a) nach (46)/(47)/48) fir 


M: My) = (my) — (m y')' + my, mM=zm>0, m,m=ZO0, 
y (0) = y’(0) = y""(4) = my (1) y’(1) — my (1) y’”"(1) = 0 
mit 
s—é t< 


|u|? =f myu"*dé,  G»(E,s) =) m8) 
0 ssé 


die Schranken 
1 
( ( ani 
lf(x)|?< f' *— mat fat fmt pees D(s) as) dé 


~ f pee I m,(8) J (/ Din) an)as| ag 
< 7, T(r an)as| a6. 
; d 


Auch diese Resultate sind beziiglich der Informationen 3= {m,} >3,-= {m,} die 
giinstigsten ihrer Art. 


Auch fiir das zweite Beispiel 














M: M(y) = (my y")" — (Mm y')' + my, mg=m,>0, MmZ>Mm, m= Mo, 
y (0) = y’(0) = y(1) = y’'(1) =0 und (u,v)y in W, positiv definit 


werden die in 7. b) mit einem Nebenproblem bereitgestellten Hilfsmittel ausge- 
nutzt. Solange 





Wo 
ax + (4,73)* me >o 


k=1+ 
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_ bleibt (vgl. die SchluB8bemerkung in 7. b)), ergibt (46), (47), (48) die Fehler- 
abschatzung 


|f(x)|*s “or S| [ @—#G2—245—s)D(9ds] Dia) ae. 





222 
9ms A 


Elementare Umformungen fiihren schlieBlich auf die handlichere Form 


Ne) s 





[Crxdx+ AB a ee + Bi 


mit 
C(x) = f( De a8) ds, A=fs*D(s)ds, B=fsD(s)ds. 


9. Beispiele fiir die Beriicksichtigung spezieller Eigenheiten einer Aufgabe 
In diesem Abschnitt sollen fiir die Aufgabenklasse 


M: M(y) = (my) —(my')' + my, m=m>0, m,m =O, 
y (0) = y’(0) = y(1) = y'(1) =0 © 


gewisse spezielle Eigenschaften der Koeffizienter starker als bisher bei der Be- 
rechnung von Fehlerschranken ausgenutzt werden. 


a) Der Koeffizient m, variiert stark und m, ist sehr klein. Damit versprechen 
die in 7. b), 8. b) hergeleiteten Schranken unbefriedigende Ergebnisse ; das Heran- 
ziehen der zu (m,¥’’)"’ gehérigen Greenschen Funktion scheint aber immer noch 
zu aufwendig. 


Daher muB weiter mit 
H(y)=y'%, = ¥(0) = (1) = y'(0) = y'(A) = 0, 
(u,v), = ful v' dx, Gy (x, 8) = $x*(s — 1)?(3s — 2x5 —x) (x Ss) 


als Nebenproblem gearbeitet und die Wirkung des Koeffizienten m, etwa mit 
Satz 3, Zusatz 3, nachtraglich ausgeglichen werden. 


Uber die Schwarzsche Ungleichung findet man: 


(u,v) = (f uv" dx)? = (f Ms a ax) < (v, v)yy (u, HU), 


uu’ d 
ms 


u,veW,=W, mit (u,u)o= x 


und nach Satz 3, Zusatz 3: 


: ‘ 
G(x, 2) S (Gul), Gul(x,8))o= f (G(x) 
x : 1 1 
(4—1)* (4—s(24¥+1))* #°((3—24)s—2+%)? go 16 ds 
m, (S) as+ [ Mz (5) ass 729 J ms(s) © 
x 0 
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(Die letzte Abschatzung lieBe sich durchaus noch verschiarfen.) Damit ergibt 
sich-aus Abschnitt 5, —n die Fehlerschranke: 


Mls 739 mety J IPilas. 


DaB hierin der Faktor - — S. gegentiber —* — > im Abschnitt 7. b) um 4,2 ungiinstiger 
ds 





ist, _ in Kauf utttadhiin <iiithen, “alls nur i y entsprechend kleiner 


als —— ausfallt. 


ms 

b) m,(x) ist um GriBenordnungen kleiner als m,(x)=m,>0. In diesem Falle 
kann bequem 

H(y)=—my"+ my, Wy: y(0)=y(1)=0 

mit 

(, v) =m, [ u'v'dx+m fuvdx und G,(x,s) = Smex Sina(t=s) 

alin — vidi m,a Sina 
(xs) a*=m)/m," 





als Nebenproblem herangezogen werden, wenn nur m)> — m, x? und damit (u, v) , 
positiv definit bleibt (man vgl. auch 7. a). Da hier offensichtlich W,,>W, und 
(4,.U)y¢= (u, 4), (4EW,) gilt, liefert Abschnitt 5, Abschaétzung1 und 3 unter 
Benutzung von Ergebnissen aus jeweils den ersten Beispielen von 7. a) und 8. a) 











lf(x)|s ma Gna VSinae x Sin a(t x) { VSinas Gin a(i — s)|D(s)| ds 
p> 
Sins 2 [|Di|4as 
und 
1 x 
Hole ae giee J D(x) Gina (1 — x) J D(s) einasds| dx, 
a* = m)/m,. 


c) Die Approximation eines Randwertproblems 4.Ordnung durch ein entspre- 
chendes 2.Ordnung. Vorgelegt sei die Aufgabe 4. Ordnung 


M(y) = 4 (my) — (m, y')’ +1my =r (¢ positive Zahl), 


(59) yO)=y"(0)=y(t)=y"(1)=0, mam>0, m2>m>0, m20 
mit zusatzlich m,€C®), My, 7 EC), 


Es soll untersucht werden, ob und wie genau die Lésung insbesondere fiir 
groBe ¢ durch die des Grenzproblems 


(60)  —(mo')’+mp=r, P(0)=9(1)=0, m2m,>0, m20 


ersetzt werden kann. 





Das inhomogene natiirliche Randwertproblem 27 


Infolge der Differentiierbarkeitseigenschaften von m,, my, 7 ist p(x) €C™ und 
es kann der Fehler gegentiber der exakten Lésung nach Abschnitt 3, Gleichung 
(22) bestimmt werden. Allerdings braucht jetzt y(x) keineswegs die natiirlichen 
Randbedingungen zu erfiillen, so daB ein Randdefekt auftritt. Uber Gleichung (5) 
ergeben sich aus 


(14, Uy = f M(v)udx + ml ¥"() u’(4) — )— 20) 4 (ucWy,, vec) 


die natiirlichen Randbedingungen 
Ryo) =— M02") yy = malt 01) 


’ 


zu den freien Randwerten u’(0), «’(1). Mit der zu (59) gehérigen Greenschen 
Funktion G(x, s) ergibt (22) fiir den Fehler der Naherungslésung g(x): 


G(x, 1) my (1) 9’’(1) 
a . 


Da (x) der Gleichung (60) geniigt, hat der Defekt die einfache Gestalt 








(61) f(x)= f G(x, s) D(s) ds — C2 * ma(0) e(0) 


D(s) = M(g) —r = 5 (m9")". 
. Mit dem Nebenproblem 


H(y) = a yV— my", (0) = y""(0) = y(1) = y"(1) =0 





Gy(x,8) = 5 |x(1— ) — 
und 
(u, w= {| u'2+ m, wildxs [ |" “24+ m, yu’ 2+ mar =e U)s4 


oun 2 7/2 10 
Sing Cina x Sina(t s)|. a? = t2m,/m, 


14Bt sich G(x, s) leicht nach (29b) eingrenzen: 
| G%?(x, s)|*< GH7(x, x) GHe(s, s) (0So,0S1). 














a a a a 
1 2 83 'D tat 
Mit max G, (x, x) = —————_--—, max G}}(x, x) =—- “— ergibt 
x€<0,1) 4m, a x€<0,1) m, z a 
2 83 
das aus Gleichung (61) zuletzt nach nochmaliger Differentiation 
($ 
(62a) se + fhm g")"|ds + —— 
V3 X95 
<- ™ 
2a ms |/'S 9% ” E Iq . 


Schon diese Wi aie lassen das asymptotische Verhalten der 
Naherung g(x) erkennen: Die Lésung der Gleichung (59) wird samt der 
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Ableitung fiir ¢—>oco (entspricht a—>co) gleichmaBig auf <0, 1) approximiert. 
(62a), (62b) geben einfache Fehlerschranken. 


10. Zahlenbeispiele 


Diese sind so gewahlt, daB sie geschlossene Auswertung gestatten, trotzdem 
aber einen zuverlassigen Eindruck von der Giite der erhaltenen Schranken ver- 
mitteln. 

Die Aufgabe 

—y"+Ry=x,  y(0)=y(1)=0 
hat die Lésung: 





1 Cink x 
ete ~~ So k+0 
ke (x Sink ) 

y (x) = . ; 


Als 1. Naherung wurde nach dem Ritzschen Verfahren 


9 (x)= ate By ) mit dem Defekt D=— i+ *) [2— (4-3 m8) 2—aa4] 
bestimmt. 


Die Ergebnisse in den Abschnitten 7, 8 ergeben fiir den Maximalfehler die 
Schranken: 









































Tabelle 2 
a 1 ar Ig k 
he} Whmax max Y|Didx* =| AS yx(1= 2) |D| de® il// O~ Nae” | See f [D| dx ** 
| | 
0 0,0080 | 0,063 | 0,0625 0,0416... 0,0186 0,0625 
1 0,0079 | 0,057 0,0625 0,0417 0,0186 0,058 
5 0,0060 | 0,018 | 0,0643 0,0435 0,0195 0,025 
k oe x Sink (1—x)|D| dx ** | — —- ¢ Vfow Sink(1—x) [foe Sinks ds] dx** 
2k Gof = | y2k Gof ~ 
ca) 0,042 0,0186 
1 0,039 0,018 
5 0,020 | 0,010 





* Diese Schranken sind mit den Nebenproblemen I nach 7. a), 8. a) bestimmt. 
** Nutzen das Nebenproblem III, sonst analog *. 


(Die Zahlen’ sind abgerundet, die Stellenzahl ist so angegeben, daB sich die 
Abhangigkeit von k verfolgen 1aBt.) 
Fir die Lésung zu k=1: 


Sin x 
x)=x— 
(x) “Sin 1 





Das inhomogene natiirliche Randwertproblem 29 


wurde mittels zweigliedrigem Ansatz nach Ritz die Naherung 

































































— *(1—*) (77%+69) D(x) = —16+584+ 8427-7748 
p(s) 473 473 
ermittelt. Man findet u.a. 
Tabelle 3 

Pa 0,0| 0,4 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 {1,0 
y (x) 0 | 0,0148 | 0,0287 | 0,0409/| 0,0505 | 0,0566 | 0,0583 | 0,0545 | 0,0443 | 0,0265 | 0 
9 (x) 0 | 0,0146| 0,0286 | 0,0409| 0,0506 | 0,068 | 0,0585 | 0,0546| 0,0442| 0,0263 | 0 
Fehler- , Xs 
wane + J \Diax =0,0036, 3 f \Diax = 0,0033 
* | #(*)| S| 0 6,000430,000560,00066),00071 0007 0007 p.000660,000560,00043 0 
** | #(x)| S| 0 0,0003410,0004410,00050/0,00053 0005 5}0,00053}0,000$00,0004410,00034 0 














_ * Nach 8. a), I: |f()| < Y#(1—#) YI (4—C)* dx = 0,0014 Px (1—2). 








#* Nach 8, a), III: |#(x)|< / 2 Gin Sulina) Vie Gin(1—a)| (D(s) Sins ds]ax 
= 0,00105 / Gin « Gin(1— +). 
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Dresden A 1 
Ernst-Thalmann-Str. 9 


(Eingegangen am 18. Juni 1960) 


Numerische Mathematik 3, 30—38 (1961) 


Ein Verfahren zur Berechnung des charakteristischen 
Exponenten der Mathieuschen Differentialgleichung. I 
Von 


FRIEDRICH WILHELM SCHAFKE 


Die Mathieusche Differentialgleichung sei in der Form 
(1) y"’ (x) + (A — 2h*? cos 2x) y(x) =0 


zugrunde gelegt!. Zu beliebigen komplexen Parametern A, h* gibt es stets einen 
charakteristischen Exponenten », derart, daB eine Lésung y(x)=0 von (1) mit 


(2) y (x + 2) =e" y(x) 
existiert. Mit y sind genau die Zahlen 
2k+v  (k ganz) 
ebenfalls charakteristischen Exponenten. Ist y, (x) die Lésung von (1) mit 


(3) y,(0)=1, (0) =0, 
so wird? 
(4) cos 7» = y, (2; A, h®). 


Die Kenntnis des charakteristischen Exponenten bildet die Grundlage fiir 
die Beurteilung des Stabilitatsverhaltens von (1), fiir die Gewinnung der Lé- 
sungen von (1) in Form von Fourier-Reihen oder Reihen nach Zylinderfunktionen 
und alle hiermit zusammenhangenden Probleme. So sind zugkraftige Methoden 
zur Berechnung des charakteristischen Exponenten ein Hauptanliegen fiir die 
praktische Behandlung der Mathieuschen Differentialgleichung. 

Bekannte Methoden sind die folgenden: 

1. Verwendung der Hillschen unendlichen Determinanten®, 

2. Benutzung der Kettenbruchrelationen zwischen A, h?, y 4. 

3. Gewinnung von cos zy durch unendliche Produkte bzw. Partialbruch- 
reihen aus den Eigenwerten A (h?) der Periodizitat®. 

4. Berechnung von ¥; (7; A, h?) — vgl. (4) — durch ein Verfahren numerischer 
Integration. 





1Vgl. MEIXNER u. F. W. ScHAFKE: Mathieusche Funktionen und Spharoid- 
funktionen. Berlin-Géttingen-Heidelberg: Springer 1954. 

2 Vgl. l.c.1, S. 101. 

3 Vgl. z.B. WHITTAKER-Wartson, A.: Course of Modern Analysis, 4. Aufl., S. 415 ff. 
Cambridge 1952. 

*Vgl. l.c.1, S. 117 bzw. S. 218. 

5 Vgl. SCHAFKE, F. W.: Uber die Stabilitatskarte der Mathieuschen Differential- 
gleichung. Math. Nachr. 4, 175—183 (1950). — Eine Methode zur Berechnung des 
charakteristischen Exponenten einer Hillschen Differentialgleichung. Z. angew. Math. 
Mech. 33, 279—280 (1953) :und l.c.!, S. 125—127, 218—219. 
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Auf weitere Methoden, die z. B. nur fiir recht kleine h? Naherungswerte liefern ® 
oder nur schlecht konvergieren’, sei hier nicht eingegangen. 

Alle genannten Methoden haben entscheidende Nachteile. Bei 1. hat man 
zu schlechte Konvergenz — wie eine Reihe mit Gliedern »-* — und unbequemen 
Rechenaufwand. Mit 2. wird » nicht direkt, sondern implizit bestimmt. Zwar 
konvergieren die Kettenbriiche ausgezeichnet, jedoch braucht man schon gute 
Naherungswerte fiir v. Auch ist die Durchfiihrung der Newton-Iteration nicht 
einfach. 3. ist stets nur so weit brauchbar, wie die Eigenwerte der Periodizitat 
rasch zur Verfiigung stehen. Die Konvergenz ist recht gut — wie bei einer 
Reihe mit Gliedern n~*. SchlieBlich ist 4. numerisch sehr aufwendig. Die Fehler- 
abschatzung ist nicht leicht. 


Die hier zu entwickelnde neue Methode ist in wenigen Zeilen notiert: 








(5) Yo= 2, u=1, 
ht 
(6) Yati — Vn — [(2)?— A] ((2m—2)*@—a] ?"-} (n= 1, ere 
(7) | y=limy,; 
(8) B, —_ 1 ’ Be —_ 1 ’ 
h = 
(9) Bis =B, — [(2m)*—A] [(2m—2)?—A] | (n = 2, 3, er FP 
= him =. 
(10) o = lim oe 
(11) sin? y = = yo sin? ya >: 


Die Konvergenzgiite ergibt sich fiir (7) zu 
Yati— Ya = O(n-*) , 
Pott — f» —0/ a” ). 


Yn+1 Yn 2** n!*(m—1)!8 


Die Ausnahmefalle (y=0 oder A=(2m)*) werden unten diskutiert. 
Zur Begriindung gehen wir davon aus, daB (1), (2) 


fiir (10) zu 





+00 
(12) y(x) = & cyeiettes 

und 

(13) — h*c,,,+[A—(v + 2n)*] c, —h®c,_, =0 


nach sich ziehen*. Das Umgekehrte ist sicher auch richtig, wenn zusatzlich 
bekannt ist, daB (12) in kompakten x-Gebieten gleichmaBig konvergiert. 





6 Vgl. z.B. l.c.1, S. 163—165 sowie l.c.*, S. 424. 

7 Zum Beispiel Guizzett1, A.: Sul Calcolo Dell’Esponente Caratteristico Del- 
l’Equazione di Mathieu. Atti III. Congr. Un. Mat. Ital., Pisa 1948, S. 73—74. 1951. 
Hier ist das Konvergenzkriterium von RAABE notwendig. 

§ Vgl. l.c.', S. 105—106. 
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Ist y=0, so muB y(x) gerade oder ungerade sein®. Im geraden Falle (I) ist 


[au, ate 
(14) yi (Z + A, A) =0, 
und (13) wird zu 





(13;) — 2h*c, + ¢=0, 
, — Wn 44 + [A — (2m)9] oy — h2 C41 = (n =A, 2,3, ++.) 
Im ungeraden Falle (IV) ist 
na, rr 
(15) yn(Z 3 A, ht) = 0 
mit der durch 
(16) yu(0)=0, yr (0) =1 


definierten Lésung von (1), und (13) wird zu 

—h®c,+ [A— 4] cq, =0, 

— h®e,4,+[A— (2n)*] c, —h®c,_, = 0 (n = 2, 3, 4,...). 
(14) und (15) hangen mit (4) iiber 


(17) yi(m) — 1= 291 (F) yu (Z) 
zusammen. 
Unsere Methode basiert nun auf einem eingehenderen Studium der nicht- 
trivialen Lésungen von (13;) — z.B. cy=2 — und (13;y) — z.B. c;=1. 
Wir transformieren dazu (13;) mit 
| ¢, =(— 4)"- j-2 22-2 ((n _ 1)!)z, (8 = 1, 2, 3, wo 2 


Co = 2. 


(131v) 


(18) 


Es.entsteht 


=A, a= A(1— 4) 4544, 
(19) A hs 
tris = (1— Gans) 9 Feat 


Ebenso wird (13;y) mit 


(20) Cy = (— 1)" ABM +8 228-2 ((m — 1)!1)% 2, 
(n = 1, 2, 3,...), C= %, = 1 
auf 
2 
4=1, %2=>\|1-——], 
“ (1-4) 


waif ds 23) pico We od 
ys = (1 Cat) *e ién*(n—1)? 2n-1 (n = 2, 3, 4,...) 


transformiert. In (19) und (21) haben wir die gleiche Rekursion mit verschie- 
denen Anfangswerten. 





* Hierzu und zum folgenden vgl. I.c.1, S. 108 und S. 117/118, sowie fiir (17): S. 100. 
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Diese Rekursion ist vom Typ 


(22) Zn41= (14+ E,) 2, + D, 2,-1 (n = 2,3, 4,...) 
mit 
(23) 2X (lEn| +|D,|) <0. 


Hieriiber notieren wir zundchst einige einfache Eigenschaften. 
1. Jede Losung ist beschrankt. Ist 
lalse,  lalse, 


so wird ion 
leo] SIT (1+ [Ea +|Dal] 


|z,| sel] [1+ |E,| +|D,|] =. 


Der Beweis wird einfach durch Induktion gefiihrt. 


2. Fiir jede Losung existiert 
z= lim z,. 


n—> oo 


Denn mit |z,,| Sd wird 
lzn44— z,| = a(|E,,| + |D,,|). 


‘Damit liefert (23) den Beweis. 
3. Set jetzt mit zwet Parametern A, 
(24) E,=Aé,, D,=pd,, 


wo é,, d, von den Parametern unabhangig sind und gemaB (23) 


(25) (eal + [aul) < 20 


erfiillen. Es mégen ferner 2,, 2, ganze analytische Funktionen in A, u sein. Dann 
ist auch 
2(A, u) = lim 2, (A, “) 
eine ganze analytische Funktion von A, py. 
Denn nach 1. und 2, ist die Konvergenz fiir beschrankte /, uw gleichmaBig, 
und die z,(A, u) sind nach der Rekursion ganze Funktionen. 
Zugleich ergibt sich fiir z(A, u~) mit 1., 2. eine Wachstumsschranke: 


4 J2(A,w)| e( Ale Lal) HT (4-4 [Al leal + lel lel). 


wenn 
lm Se(lAl, nl). — la(Ae)|<e(lAl. lal). 


Damit ist bewiesen 
Satz 1. Fiir jedes Parameterpaar i, h® existieren in (13,) 
2, (A, h*) = lim z, 


und in (13,y) zy (A, h*) = lim z,. 


Numer, Math. Bd. 3 \ 3 
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2, (A, h®), zy (A, h®) sind ganze analytische Funktionen von 4 und h‘. Sie sind in 
A, h® hichstens von einem Normaltypus der Ordnung 4". 
Dabei ist nur noch 
co 
_|Al |h?|? 

IT (1 + (2)? > ete) 

abzuschatzen. Dies kann grob mit 
co co 
aL |h?| \? 
IT (+ ame) IT (+ any) 





geschehen, also mit 
Seta 2 kiiies 2 
2 Al 4 Sin | alt. {= || 4 sin = | n|H} 


Das geniigt fiir die Wachstumsaussage. 

Wir brauchen nun eine Aussage iiber die Nullstellenpaare A, h? unserer Funk- 
tionen z;, z;y. Dazu soll wieder allgemein (22), (23) betrachtet werden. Wir 
notieren: 


5. Fir o 
E,, = sup |E,|, D,, = sup |D,,| 
ram rem 
gilt a 


E,,70, D,, —>0, 
also fiir alle hinreichend groBen m 

(1— E,,)?> 4D,,. 
Dann gibt es Zahlen f,, > 0, fiir die 


gilt, z. B. 





Man hat danach 
(1— |Eu| — fal Dal) = > (n=>m). 


Ist nun fiir eines dieser m 
[Zn —a| s hn |2m| , 
|Zm+a] 2 (4 — | Enel) |2ml — | Dow] [Zena 
= (1 —|Em| — ful Din|) [Zn 


> + Iz], 
m 


so folgt mit (22) 


also wieder 
| Z| = hn |Z +1 | 


und nun durch Induktion 
znaa1 2 (4 — | Bul — ful Dal) 120 (1 = m). 





1 Vgl. l.c.', S. 47. 
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So hat man -_ 
|2| = Il (1 ba |E,,| — fn|D,,|) é |Zmn| > 


also z=£0, falls z,,+=0. Umgekehrt gilt, falls z=0, z,=0, fiir alle unsere m 


1 
| Zn | < Tm |2.—1| é 
Nun kann bewiesen werden 


Satz 2. Es ist 
2, (A, kh?) =0 


genau dann, wenn es zu i, h® eine gerade n-periodische Lésung gibt. 


Es ist 
Zy (A, h?) = 0 


genau dann, wenn es zu A, h® eine ungerade m-periodische Lésung gibt. 
Fir h?=0 ist z;=0 genau dann, wenn A einen der Werte 
(2%)* ° (s =0, 4, 2,...) 
hat, und z;y=0 genau dann, wenn A einen der Werte 
(2m)? (x = 1, 2, 3,...) 


hat. Damit gilt Satz 2 fiir h?=0. 
Sei nun h?=+0. Ist dann z;=0, so hat man in (18) 


Ch >, 


also ist (12) nicht konvergent, mithin A, 4? kein Eigenwertpaar fiir eine gerade 
m-periodische Lésung. Ist dagegen z;=0, so kann — hier ist D, +0 — z,, nicht 
fiir benachbarte Indizes verschwinden, also gilt hier fiir alle hinreichend groBen m 











nach 5, 
oan 
16m*(m—1)*(1 — an 
und so mit (18) 
Lal < —- arene deel 
am? (1 — [| “ 
(2m)? 


Damit aber ist (12) in kompakten Gebieten gleichmaBig konvergent und A, h? 
entsprechend Eigenwertpaar. Die SchluBweise fiir z;y(A, 4?) ist ganz analog. 
Damit ist Satz 2 bewiesen. 


Der Vergleich mit (14), (15) zeigt nun, daB 


a(n), yi (S5 A.M) 
und analog 
av(A, WY), yu (Zs 2A) 


je Funktioneripaare mit den gleichen Nullstellen sind. Man wei weiter, daB 
alle vier Funktionen ganze Funktionen von 4, h? sind, deren Ordnung } ist ©. 





1 Beziiglich yj, yy vgl. z.B. l.c.1, Abschnitt 1.3. 
3* 
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Damit aber gilt mit Konstanten a, b 
4(4,M) =ayi(Z; 2m), 


ay (A, h*) = yn (= SA, i) ’ 


Man schlieBt z. B. zunachst fiir 4*=0 auf Proportionalitat und danach bei festem A 
fiir die Funktionen von h?. Stets wird benutzt, daB zwei ganze Funktionen 


f(z), gz) 


mit Ordnungen <1 und gleichen Nullstellen bis auf konstanten Faktor iiber- 
einstimmen ?2, 

Zur Bestimmung von a, b und zum Zwecke einer gewissen Bestatigung des 
eben Gesagten geben wir 


24(A, 0) = AIT (1- Gar) = = Vasin S ya, 
vi ($5 4,0) =— Yasin YA, 
waite. am) = Vi sin ya. 


yn (= A, 0) = Vi sin — + VA 


an, und zwar aus (19), (21) und mit 


y1(x; 4,0) = cos VA x, 





Vu (x; 2,0) = Vi sin ya x. 
So hat man 


Satz 3. Es gilt 
(A, ht) = — 2 9, (Fam), 


2 x, 
Zyy (A, h*®) = Hz IV (F 34, n) ’ 
. 2 
sin? y = = = z, (A, h2) 2!Y (A, bY). 


Die letzte Zeile folgt dabei aus (4) und (17) mit den beiden ersten. 


Nun ergibt sich leicht die Begriindung unserer in (5) bis (11) gegebenen 
Methode zur Berechnung von ». 


Sei zunachst 
A + (2m)? (n = 0,1, 2,...); 


wir setzen dann in (19) 


2,=A]] (1 - ean) % (n = 1, 2,3,--.) 





12 Vel. z.B. 1.c.1, S. 46. 
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und in (21) 


n—1 


n= TT (1— ar) Bs (nm = 41, 2, 3,...). 


x=1 


Dann entstehen gerade (5), (6) bzw. (8), (9). Man hat danach fiir co 
2 (A, h?) = 2 (A, 0) y 
Zy (A, h*) = zyy (A, 0) B 


B =lim8,. 


= \/a 
fiir h2=0 folgt so aus Satz 3 
e MA . Mi 4 
sin? y - = By sin? ya = 


mit 


Wegen 


Aus 1., 2. sieht man nun, daB- 
Yn+1— Yn = O(n-*) 

wird. Damit ist die Folge der y, wesentlich besser konvergent als die der z,, mit 
dni — 2, =O(n-*). 

SchlieBlich ist 


Bn+a a Bn an Bn+1 Yn — Bn Yat. 
Yat Yn Yn+1 Vn 


Aus (6) und (9) folgt nun 





hs 
(B41 ¥n — Ba Ynti) = T(2n)?— A] ((2n—2)?—A] (8, Yn—1 — Yn Bn)» 
also 
n h* 
Buir%n— Bu Yn =2 TT] [(2%)?— A] ((2%—2)?—A] ° 





Somit ist tatsachlich 
But _ Bn =0 (sete a) 
Yn+1 Yn 2** n!2(n—1)!? }? 
also die Konvergenz 


fn 
Vn 
wesentlich rascher als B,, >. 


Nun zu den Ausnahmen. 
Ist =0, so ist 2;(A, h?) =0, also sin*® » = = 0. Fiir y 0 kann man die Rollen 
der B,,, ¥, vertauschen. 


Ist 
A= (2m)? 


mit einem m=1, 2,..., so wird man offenbar so vorgehen: man berechnet 


Yor Vir+s+> ¥m—-1> Vm 
A h* 
Ymia =O +5 am —3)t Pm 


“ - h* 
Vn+2 = Y¥m+1 — [A iain (2m-+ 2)*] Ym 


mit (5), (6), dann 
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und weiter 

. , hs . ri : 

Yat = Vn — T(2n)?— 4] [(2n—2)*@—A] Yn-1 (n= m+ 2, m-+-3,...). 
Analog werden 


Bi» Bos +++» Bm—1» Bim 


und 
B, (n>m) 
gebildet. Ist dann 
y=limy,, 
o =lim ‘ . 
so wird 
9 1/3 Bi A 
sin? | A r a aa 


; a ‘ 
sin? y — = y?¢ —_________ =y*o—.. 
2 Y [A—(2m)?]? A=(2m)* Y 64m? 


Fiir A=0 bleiben f,, B,,... ungedndert. Man rechnet dagegen 





es 2ht 
n [a—4] ° 
ov V2» | 
und nun fiir n> 3 | 
A a hi a 
Yara Yu Tame Ay [an—2)*— Ay Yad 
Mit 
6 = lim Pn y=limy, 
ps Yn 
wird dann 
sin? //A- 
i a 
sin*yv—- =y ¢—_—____—. 
2 JA -_ 
2 
— 2g 7 
yr* 


Diese Verfahren fiir die Ausnahmen ergeben sich entweder durch eine leichte, 
naheliegende Modifikation des normalen Falles oder aus ihm durch Grenziiber- 
gang. Sie sind im iibrigen praktisch mehr oder weniger uninteressant. 

Eine weitere Ausgestaltung des geschilderten Verfahrens, die noch eine we- 
sentliche Konvergenzverbesserung bringt, soll in einer weiteren Note (II.) dar- 
gestellt werden. Dort sollen zugleich einige Untersuchungen iiber die praktische 
Verwendung des Verfahrens an elektronischen Rechenautomaten wiedergegeben 
werden (Rechenzeiten, Vergleiche mit anderen Verfahren, Fehlerabschatzung). | 


Universitat K6ln 
Institut fiir angewandte Mathematik 
K6ln-Lindenthal 


(Eingegangen am 5. September 1960) 
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Fehlerabschatzung mit Rechenanlagen bei 
gewohnlichen Differentialgleichungen erster Ordnung* 


Von 
JOHANN SCHRODER 


In einem kiirzlich erschienenen Aufsatz [3] wurden bestimmte Ergebnisse 
iiber die Fehlerabschatzung bei abstrakten Gleichungen der Gestalt Au= Bu 
(bzw. w= Tu) zusammengestellt. Die meisten dieser funktionalanalytisch formu- 
lierten Abschatzungsmethoden sind an numerischen Beispielen erprobt. Jedoch 
wurden dabei programmgesteuerte Rechenanlagen noch nicht in gr6Berem Umfang 
benutzt. Insbesondere wurde noch nicht versucht, diese Methoden fiir bestimmte 
Problemtypen zu einem systematischen Abschatzungsverfahren fiir Rechenanlagen 
auszubauen. Hierzu scheineh die vom Defekt — Ag+ By einer Naherungslésung 
gy ausgehenden Abschatzungen am geeignetsten zu sein!. 

Diese den Defekt verwendenden Ergebnisse enthalten als Spezialfall einen 
in Abschnitt 1 formulierten Satz. Als Beispiel entwickeln wir mit Hilfe dieses 
Satzes (in den Abschnitten 1 bis 4) ein Abschatzungsverfahren fiir Anfangswert- 
aufgaben bei gewéhnlichen Differentialgleichungen erster Ordnung: 


u = F(t, u) ((St<T), 0 (8,) == tp. (0.1) 


Die Ergebnisse kénnen auch als Anhalt dienen, wenn man entsprechende 
Verfahren fiir andere Aufgaben, insbesondere Anfangswertaufgaben, konstruieren 
will, 

Fehlerabschatzungen fiir Anfangswertaufgaben sind vielfach in Angriff ge- 
nommen worden (s. [/] und [4]). Es soll hier nicht im Einzelnen gezeigt werden, 
wie sich die im folgenden beschriebene Methode von den bekannten Abschatzungen 
unterscheidet. Statt dessen fassen wir einige wesentliche Eigenschaften des Ver- 
fahrens zusammen. 

1. Das Verfahren ist so weit wie méglich systematisiert. Man hat in die 
Rechenanlage Naherungswerte y, an Stellen t, =t,+ kh (k=0, 1, 2,...), die Schritt- 
weite h, eine die Abrundungsfehler betreffende Konstante «« und gewisse Kenn- 
gréBen einzugeben und der Rechenanlage ferner bestimmte wesentliche Eigen- 
schaften der Finktion F(t, «) in geeigneter Form mitzuteilen. Ausgegeben 
werden dann Schranken e¢, fiir die Fehler |y,—«*(t,)| gegeniiber den Werten 
der genauen Lésung w*(t). In Abschnitt 7 ist ausfiihrlicher beschrieben, wie 
man im konkréten Fall vorzugehen hat?. 


* Uber das hier beschriebene.Verfahren und die in 3} dargestellten Ergebnisse 
berichtete der Verf. auf der GAMM-Tagung 1960 in Freiberg. 

1 Zu diesen Abschatzungen s. auch /|2}. 

2 Fraulein HELGA MEvyerk, wissenschaftliche Assistentin am Institut flir \nge- 
wandte Mathematik der Universitat Hamburg, hat die Programmierung im_ [in- 
zelnen durchgefiihrt. Datiir méchte ich ihr herzlich danken. 
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2. Die Fehlerschranken sind exakt. a) Es werden keinerlei unbewiesene Eigen- 
schaften der Lésungsfunktion benutzt, z.B. wird nicht gefordert, daB w*(¢) in 
einem bestimmten Gebiet verlauft (woraus man dann - Lipschitz-Konstanten, 
Schranken fiir héhere Ableitungen und dgl. herleiten kénnte). b) Die bei der 
Fehlerabschatzung auftretenden Abrundungsfehler werden voll beriicksichtigt 
(s. dazu Abschnitt 5). 

3. Die Abschatzung bezieht sich nicht auf ein bestimmtes Naherungsverfahren. 
Die Herkunft der Naherungen y, ist fiir die Giiltigkeit der Ergebnisse ohne 
Bedeutung. Deshalb brauchen wir auch die Abrundungsfehler nicht zu beriick- 
sichtigen, die beim Berechnen der Naherungen selbst auftreten. Die Abschat- 
zungsmethcd2 ist jedoch so entwickelt, daB man bei Verfahren vierter und 
niedrigerer Ordnung gute Ergebnisse erwarten darf, nicht aber bei Verfahren 
héherer Ordnung (s. dazu Abschnitt 6). 

4. Die Methode beriicksichtigt die wesentlichen Eigenschaften der jeweils vor- 
liegenden Anfangswertaufgabe, z.B. die GréBe der Ableitung 0/@u F(t, u) (ins- 
besondere auch ein periodisches Verhalten dieser Ableitung wie etwa in Beispiel 3). 

Die numerischen Ergebnisse in Abschnitt 8 sind auch bei gréBerer Schrittzahl 
sehr befriedigend. Die Genauigkeit der Schranken — .bezogen auf den wahren 
Fehler — nimmt in vielen Fallen sogar mit wachsendem & zu. 

Als Naherungsverfahren verwendeten wir bei unseren Beispielen vor allem 
das iibliche Verfahren vierter Ordnung von RuNGE und Kutta’. Eine ausge- 
zeichnete Methode zur Berechnung von Naherungen besteht aber auch darin, 
ein Verfahren mit verschiedenen Schrittweiten 4 zu rechnen und dann beziiglich 
h zu extrapolieren*. In dieser Weise benutzten wir bei zwei Beispielen die ver- 
besserte Euler-Cauchy-Methode®. Die Ergebnisse einer solchen (auch bei anderen 
Aufgaben méglichen) Extrapolation liefern auch einen gewissen Anhalt fiir die 
Giite der zur Extrapolation benutzten Naherungen (nicht fiir die Giite der extra- 
polierten Werte selbst!), einen Anhalt, mit dem man oft zufrieden ist und zu- 
frieden sein muB. Diese Extrapolationsmethode sollte man aber doch nicht als 
Abschatzungsmethode, sondern als Naherungsverfahren ansehen. 

-Natirlich erfordert eine’ genaue Fehlerabschatzung zusatzliche Arbeit. Dafiir 
liefert sie aber auch exakte mathematische Aussagen. Man kann die im Einzel- 
fall erforderliche Arbeit unter Umstanden erheblich herabdriicken, indem man 
die Programmierung fiir bestimmte Typen von Funktionen F(¢, u) weitertreibt. — 
An (Maschinen-)Rechenzeit bendétigten wir beim Runge-Kutta-Verfahren fiir 
die Fehlerabschatzung etwa ebensoviel wie fiir die Naherungsrechnung selbst. 


1. Allgemeine Beschreibung des Verfahrens 
Voraussetzungen. a) Fiir die gesuchte Lésung u*(t) der Anfangswertaufgabe 


u=Ftt,u) fir O<XtST, ult) =% (=) (1.1) 


seien mit einem Ndaherungsverfahren Ndherungswerte y, ~u*(t,) in den ,,Stitz- 
stellen“ t,=igt+kh (k=0,1,2,...,2K; 2Kh=T—t,) berechnet. 


3 [1], S. 66. 
4 Siehe etwa [J], S. 49. 
8 (7), S. $2. 
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b) Die Funktion F(t, u)® set stetig fiir OStST, —w<u<oco und besitze 
ferner stetige partielle Ableitungen bis zur fiinften Ordnung? in jedem der Bereiche 


4» Stshuas, —wo<u< oo (k=1,3,5,...,2K —1). (1.2) 
Um Schranken «, fiir die Betrage der Fehler 
O,.=¥,— up mit uf = u*(t,) (1.3) 


zu erhalten, benutzen wir den folgenden in [3] formulierten Satz. Dieser Satz 
liefert Fehlerabschatzungen fiir stetig differenzierbare Naherungslésungen ¢ (t) 
von Aufgaben der Gestalt 


u=F(t,u) fir ax<t<b, u(a)=c, (1.4) 
bei denen F(t, u) und é/éu F(t, u) =F'(t, u)8 fiir a<t<b, —co<u<o stetig sind. 


Satz®. Es gebe eine fiir axtSb, OSz<oo stetige, in z wachsende (nicht 
fallende) Funktion F (t, z), derart daf gilt: 


|F(t, p() +2) -—F(t,¢()) —F'(t49(@)2| Ss |z| F(t, |2|), |! (1.5) 


~ 


F(t,0) =0 (astsb, —w<z<oo). 


Ferner mége eine in [a, b] stetig differenzierbare Funktion w(t) mit folgenden Eigen- 
schaften existieren: 


|d(t)| Sw — F'(t, gy) w — wF(t,w)- bei d(t) = d{g}=—p+F(t,9), (1.6) 
w(t)=>0 (astSbd), 
|p (a) —¢| Sw(a). (1.7) 
Dann besitzt die Aufgabe (1.4) eine Lésung u(t), und es gilt die Fehlerabschitzung 
|p (t) —u | Sw(). 
Diesen Satz wenden wir nacheinander auf die Probleme 
“= F(t, u) fir t€l,=([tp_1, tas), (4-1) =U%(-1) (Rk =1,3,5,...,2K —1) 


mit der Funktion F(t, u) aus (1.1) und der zugehérigen Lésung u*(¢) an. Wir 
definieren also jeweils a=t,_,, b=t,,, und c=wu*(t,_,) und kennzeichnen alle 

§ Wir verwenden den Buchstaben u der Einfachheit halber sowohl fiir die gesuchte 
Funktion u(¢) als auch fiir das zweite Argument der Funktion F(t, 2). 

? Diese Differenzierbarkeitsvoraussetzung wird in Abschnitt 3 bei der Abschatzung 
des Defektes benutzt. Sie scheint viel zu fordern. Es sollen aber Fehlerabschatzungen 
hergeleitet werden, die auch fiir Verfahren vierter Ordnung geeignet sind, und die 
Anwendung solcher Verfahren ist im allgemeinen ohnehin nur sinnvoll, wenn fiir 
t+t, wenigstens die Ableitungen von F(t, u) bis zur vierten Ordnung existieren. — 
Die Forderung, daB F(?, u) fiir alle u definiert sei, lieBe sich einschranken. 

8 Bei Funktionen zweier Veradnderlicher wird div partielle Ableitung nach dem 
zweiten Argument durch einen Strich gekennzeichnet. 

® Dieser Satz ist eine spezielle Folgerung aus allgemeinen funktionalanalytischen 
Ergebnissen, welche mit abstrakten Fixpunktsatzen hergeleitet wurden [2], [3]. Man 
kann diesen auf die einfache Aufgabe (1.4) bezogenen Satz (wie in [3], FuBnote 11 
angegeben) auch mit anderen Methoden beweisen. Das ist hier jedoch von geringem 
Interesse. 
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ferner auftretenden GréBen durch einen Index &. c ist fiir k >1 nicht bekannt; 
wir setzen jedoch bei der Fehlerabschatzung im Intervall J, voraus, daB bereits 
eine Schranke ¢,_, mit 

[Yea — U*(ty-1)| S &eaa 
berechnet wurde. 

Eine Naherungsfunktion g,(t) fiir das Intervall J, wird in Abschnitt 2 in 
Form eines Polynoms fiinften Grades ermittelt, welches an den Stiitzstellen 
t,_1,t,, t,,, die Naherungswerte y,_,, y, bzw. y,,, annimmt und dort auBerdem 
in das Richtungsfeld paBt. Fiir die (1.7) beim Intervall J, entsprechende Be- 
dingung ist, dann die Forderung 


E_—1 S Wy (4-1) (1.8) 
hinreichend. 
In Abschnitt 3 wird der Defektbetrag | d, (¢)| durch eine Konstante abgeschatzt 


und davon ausgehend in Abschnitt 4, (1.8) benutzend, eine Fehlerschranke w, (t) 
fiir das Intervall J, in Gestalt eines Polynoms zweiten Grades ermittelt. 


Die Fehlerabschatzung im Intervall 7, lautet dann wegen %, (¢) = u*(t) 
| x(t) — u*(t)| Sw, (2) (t,-1 StS ty). 
Insbesondere ergibt sich 
[Vera — W¥(tesa)| S eee, mit ey 44) w, (e441). 


Nach Berechnung der Funktion w,(¢) im Intervall J, bekommt man also mit 
&,.., eine Fehlerschranke im Anfangspunkt des nachsten (Doppel-)Intervalles J,.,,. 
Um die Abschatzung fiir die Intervalle J, (k=1, 3, 5,..., 2K —1) nacheinander 
durchfiihren zu kémnen, braucht man demnach lediglich eine Schranke ¢, mit 
|V¥q —My| Sey, welche als békannt vorausgesetzt werden kann. 


2. Das Interpolationspolynom 


Als Interpolationspolynom q,(¢) im Intervall J, verwenden wir dasjenige 
Polynom fiinften Grades, welches an den in J, gelegenen Stiitzstellen die gegebenen 
Naherungswerte annimmt und dort auBerdem in das Richtungsfeld paBt, welches 
also den Bedingungen 


Pr (tej) = Ver; Dp (tej) = Vari (j = — 1,0, 1) (2.1) 
bei ’ 
¥:=F(t;,y)  (¢=0,41,2,...;2K) (2.2) 


geniigt. Benutzt man die Matrizenschreibweise, so laBt sich g,(¢) darstellen in 
der Form: 
Pr (t) = Px [Te] 
mit 
— 1 — 
ae h (t ty), 


x(t] =4(t) ye + P(t) (PY, +hOH, (2.3) 
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\ 


if | ‘Vpny 
Yr =| Ve , YY, = Vp ’ 
Vr+1 Vet 


q(t) = (7-4 (t), 9o(T), % (t)) , r(t) =0(t) q(t), 


ga(t)=3(t?—7t), gol(t)=1—7%,  a(t)=3(t?+7), (rt) =3(t?—7), 
> oe, 1 O 0 
P=;/-2 0 2}, o-(0-: >) 
—_ ¢=—%5 0 O 


Wir ermitteln aus (2.3) einige zur Abschatzung des Defektes benétigte GréBen. 
Man berechnet leicht 


Yh P.[— 2! 
2 1 ; 
ol al( gene] eet ese (t= 4) 
Vk — pal— 2] + vel] 
mit den Matrizen 
0,3515625 00,5625 0,0859375 \ 
0,085 9375 0,5625 0,3515625 
— 1,406 25 0 1,406 25 ' 
1,5 =F 1,5 
/ 0,0703125 —0,28125 — 0,0234375 
0,023 4375 0,28125 —0,0703125 
~ | —0,21875  —0,375 — 0,21875 
0,25 0 — 0,25 
Ferner ist 
Px LT] 
velt] ={C+M(r)}a, mit 2,=Ay,+hBy,, (2.5) 
R(T), 
0 1 +0 0 00 1 
—1 0 1 0 0 O 0,5 Nullen 
4-2 1 0 00 1 
A= , B= , C= 
—4 0 4 0-2 0 3 
—2 4-2 —1 0 1 Nullen 6 
3 O-3 1 441 30 


und einer von t abhangigen Matrix M(t). Diese Matrix M(r) wird bei der Pro- 
grammierung nicht direkt bendtigt, sondern lediglich die Matrix M= (m,;) der 
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mj = max | M,)(t t)|: 


$3 


4 
3 
0 


ots 15 
4 


co) 
oO — he 


BL 
30 
0 
Von (2.5) ausgehend, kann man die Ableitungen der Funktion 9, (¢) ab- 
schatzen: 


ti< dla, (t) — <a hone 
~ dti- 1 dit-1 

mit den Vektoren 
E, = (&) = H(Ca, — M|a,|), nN = (ni) = H(Cx,+M|a,!), 
C= (Ci) bei Ch—=max (IEil, [vil), — larel = ((ail) 

und der 6 x6-Diagonalmatrix 


H = (6; ;-7) (i,j =41,2,...,6). 


17 ht-1 


OD weer wo Be 


Nullen 


SO (b-r St Shiri 7=1,2,...,6) (2.6) 





(2.7) 


3. Abschatzen des Defektes 
Zur Fehlerabschatzung soll eine Schranke fiir den Betrag des Defektes 


d{p,} (t) = 4, (t) = 4, [t%] =— Oe + Ft, %) (3.1) 


im Intervall ¢,_,;S¢S¢,,,, dh. —1S1,;S1, berechnet werden. d,(¢) ist eine 
bekannte Funktion. Gruridsatzlich bestande also die Méglichkeit, die Extrem- 
werte der Funktion ini Intervall J, direkt zu ermitteln. Praktisch ist dieser 
Weg fiir unsere Absichten jedoch nicht geeignet. Wir wollen exakte Fehler- 
abschatzungen gewinnen, brauchen dafiir also auch exakte Schranken fiir den 
Defekt. Wir miBten also in jedem Intervall J, (k=1, 3, ..., 2K —1) den Defekt 
genau untersuchen, wenn wir ccwa das Maximum seines Betrages ermitteln 
wollten. Das ware zu schwierig und zu zeitraubend, denn man hat es gewoéhnlich 
mit einer groBen Zahl von Intervallen zu tun. Wirwerden deshalb einen anderen 
Weg gehen, bei dem dann allerdings héhere Ableitungen der Funktionen F (t, Px (t)) 
vorkommen. 


Wir stellen d,[t] in der Form 
a,(t] = P,[t] + Ry [7] (3.2) 


mit einem geeigneten Naherungspolynom P,[t] und einem Restglied R,[t] dar 
und schatzen P, und R, getrennt ab. P, (¢)= P,[t,] sei dasjenige Polynom vierten 


Grades, das an den Stellen 5 ; ({=—2, —1,0,1, 2) dieselben Werte annimmt 
r'@ 
wie d,(t) (tz =tg tah, —c0<a<oo): 


Ritl= > L; j Cr] de | 2] (3.3) 


j=-—2 ’ 
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mit den zugehérigen Lagrangeschen Funktionen L; [rt]. Infolge (2.1) verschwin- 
det der Defekt an den Stiitzstellen, 2 
4é{j7=0 (=—1,0,4), (3.4) 
und P, 14Bt sich daher in der Form schreiben: 
P,[t] = $ (1 — 2?) ? (a, [— 3] + 4, [2]} + $(1— 7) e{—4,[— 3] +4 [2]}- (3-5) 
Hiervon ausgehend schatzt man ab: 


IB @|SLle+M, (ea StSh4:) 
mit 


2 1 1 2;1 
L= 5 a,|— 3] +45 ]]=4 ZRF) — Fasy 7], 





(3.6) 





8 4/5 1 1 S ait 
M, = V3 |— 4-5] + 44 5]|= 35 13 | pA +P a Fa ed 
und den durch (2.4) erklarten y;. 
Das Restglied R, (¢)=R,[t,] schreiben wir in der Lagrangeschen Form: 


R,[t] = s(t) d/dt5d,[z] mit s(t) =< t(c?— 4) (r*— 1), —1<t<1. 


Da d®/dt® ~, (t) =0 ist, kommt diese Ableitung in R, (¢) nicht vor, und man erhilt: 
IR. ()| SH +9 max | d5/ds5 F(s, Px (S))| (ty-1 StS t, +1) (3.7) 
k—1 SSS tee 
mit 


rl EE, ae —— 
1" 1.5 + 1,45 (145 — 1) =0,000945.... 


Die wesentliche Schwierigkeit bei dieser Abschatzung des Defektes besteht 
darin, fiir das in (3.7) auftretende Maximum eine Schranke anzugeben. Dazu 
stellt man die fiinfte Ableitung als Funktion 


d®/dt° F (t, py (t)) =F (t, pn (0), Pelt), ---» Pe) 
dar und schatzt dann, (2.6) benutzend, Y durch eine Funktion ®, der Ei, Nhe ti ab: 
|P(t, Par Par +++ PP)| SOE me Se) (teaStSteys) (§=1,2,...,6). (3.8) 


Es ist dabei nicht notwendig, daB d°F/dt® in geschlossener Form durch die Ab- 
leitungen von gy, ausgedriickt wird, sondern dies kann auch rekursiv geschehen. 
Dann erhalt man auch ®, nicht in geschlossener Gestallt (s. die Aufgabe 4 in 
Abschnitt 8). 


Insgesamt haben wir dann die Abschatzung 


I4,Q)| ST, (tyr StS ty) (3.9) 
mit 
T,=L,+M,+N, (3.10) 
und pes = 
N, = hn ®, (E,, ne» Se) - (3.41) 
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4. Ermittelung der Fehlerschranke und Rechengang 
Nach Abschnitt 1 benétigen wir zur Fehlerabschatzung im Intervall J, eine 
nichtnegative Funktion w,(¢), welche folgenden Ungleichungen geniigt: 
| 4, (¢)| S w, — F'(t, py) We — w, F, (4,w,) fir 4 .StStys, (4.1 a) 
Ep—1 S Wp (f-1)- (4.1 b) 
Dabei ist F, entsprechend (1.5) definiert. 
Um w,(t) praktisch berechnen zu kénnen, leiten wir einfachere hinreichende 
Bedingungen fiir diese Funktion her. In der Ungleichung (4.1a) ersetzen wir 
den Defektbetrag durch seine Schranke J, und F’(¢, g,) durch eine von ¢ unab- 


hangige obere Schranke y,, welche man mit Hilfe der Abschatzungen (2.6) fiir 


4=1 ermittelt: 
F'(t, Q) Syn (Ee nk Ge) fir 41 StStyr.- (4.2) 


Ferner setzen wir voraus, daB F, von ¢ unabhangig gewahlt wird. In F, werden 


im allgemeinen ebenfalls die Schranken fiir g, eingehen. F, (z)=F,(z, &1, n}, Ch) 
ist dann also eine in z stetige und wachsende Funktion mit 


| F(t, P, + 2) — Flt, y) — F'(t, %) 2| s |2| F, (|2|, ER, Nhe Ck) (4.3) 
fir ¢,,StSty,, OS 2z< 0, ‘ 
F, (0, &, 7k. oh) = 0. (4.3b) 
Insgesamt erhalten wir als hinreichende Bedingungen fiir w,: 
IT, So, — (ve 7 F, (w,)) w, fir 4.~S¢St,-1, 


E,—1 SW, (t,-1)- 


(4.4) 


Zunachst werde hierin F, (w,) vernachlassigt und das so linearisierte Problem 
gelést. In der theoretisch optimalen Lésung 
t 
D, (t) =e,rt+(ei~et Ti) fem’ ds (4.5) 
tkh-1 
treten u. U. Differenzen fast gleicher Zahlen auf. Wir machen einen parabolischen 
Ansatz 


Wh = Ep—1 + a(t — bya) + R(t — -1)?. (4.6) 
Dieser fiihrt unter der Voraussetzung 
hyz<1 mit ype=y, (4.7) 
auf 
ae=T+ yer, = Zahye (1 — Asgn[lah| + af] - yp). (4.8) 


Man hat.damit 
| w? (2) SH (-1StShy:) bei B=e1+ 2h| ab -max[1,(1— Ay) *]. (4.9) 
Im zweiten Schritt lésen wir das Problem (4.4) mit 
vh= vat F, (20%) statt yy, + F (wy) (4.10) 


und erhalten unter der Voraussetzung hy,<1 eine (4.6), (4.8) entsprechende 
Lésung, bei der nur iiberall 1 statt 0 als oberer Index auftritt. Gilt fiir die 
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entsprechend (4:9) gebildete Schranke 9 von w} 

IES 282, (4.11) 
w, (t) = Wh (t) 
eine Césung.des Problems (4.4) und damit auch der Ungleichungen (4.1), und wir 


erhalten 
(14 — hy) fir a,>0 
En, = Welt ot | ae + 2hai. : 4.12 
k+1 » (te) k-1 k ith 1 fiir al <0. ( ) 


so ist 


_ Die Forderungen (4.7) und hy,<1 sind kaum einschrankend.. Es ist 
vy,» y, © F'(t, p,), und die iiblichen Naherungsverfahren liefern ohnehin nur 
brauchbare Ergebnisse, wenn h | F’(t, u)| fiir die in Frage kommenden Argumente 


klein gegeniiber 1 ist ™. 

Die Wahl des Faktors 2.in (4.10) und (4.11) ist weitgehend willkiirlich. Im 
allgemeinen wird 0} nur wenig gréBer sein als #%. Man erhalt aber praktisch 
dieselben Ergebnisse, wenn man einen kleineren Faktor benutzt. 


Rechengang (des Maschinenprogramms). Das in den Abschnitten 1 bis 4 
beschriebene Abschatzungsverfahren ist so angelegt, daB man es folgendermafen 
programmieren kann. Man hat im wesentlichen die Naherungswerte y, und die 
Schrittweite 4 (und eventuell ¢)) einzugeben und das Hauptprogramm durch 
Unterprogramme 1, 2, 3 und 4 zur Berechnung der Funktionen F(é, u), y, (&', 7’, ¢*), 

F, (z, 1, , 2), ®, (&, n', 6°) zu ergainzen. y,, F, und ®, bekommt man dabei 
aus (4.2). (4.3) bzw. (3.8). Die Rechenanlage berechnet dann bei jedem Schritt 
(k=1, 3,5,..., 2K —1) nacheinander (in eckigen Klammern ist angegeben, wenn 
ein Unterprogramm = UP benutzt wird) 

im Teil I des Hauptprogramms: 
V(t =k,k+1) aus (2.2) [UP 1] (und y, fir k = 1), 
Y;, aus (2.4), 
x, aus (2.5) und HCx,, 


Ly => vh— Fty—ys vb) — Fltesy 7) (UP 1] —_ 
13 


M, = vt +Ft—y 7h) — Flt 78) (UP 1], 
im Teil IT: 
L,= 3L, und M,= 9 \3 M,, (4.14) 
Ee» Ne» S aus (2.7) 
D, (Emi. 0k) (UP 4], 
I, aus (3.10) mit (3.11), 
ph = yx (Ek mk Ck) [UP 2] {Priifung: h yy < 1}, 
a? aus (4.8) und 8 aus (4.9), 
yz aus (4.10) [UP 3] {Priifung: hy; < 1}, 
ai und #} entsprechend (4.8) bzw. (4.9) {Priifung: 0; < 29%}, 
€,4, aus (4.12). 
10 Siehe z. B. [1], S. 68 und 85 (,,Schrittkennzahl'*). 
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Ausgegeben werden die ¢; (t= 1, 3, 5,..., 2K —1). 

Wir haben das Programm in dieser Art gestaltet, nur zusatzlich noch die 
Abrundungsfehler erfaBt. Dann hat. man noch eine Konstante m einzugeben, 
welche die Abrundungsfehler beriicksichtigt, und berechnet Jj aus (5.2) statt 
(3.10) (s. Abschnitt 5). 


5. Beriicksichtigen der Abrundungsfehler 


Die numerisch berechneten y, werden sich infolge unvermeidlicher Abrun- 
dungsfehler von den Naherungswerten unterscheiden, welche den Formeln des 
benutzten Naherungsverfahrens exakt geniigen. Diese Abrundungsfehler der y, 
interessieren uns hier nicht. Wir schatzen den Gesamtfehler der (auf irgendeine 
Weise erhaltenen) Ausgangswerte y, ab und haben dabei, um exakte Schranken 
zu bekommen, nur beim Abschatzungsverfahren selbst auf Abrundungsfehler zu 
achten. 

Beim Berechnen von a und M, nach (4.13) treten Differenzen von Zahlen 
auf, die sich nur wenig voneinander unterscheiden. Das liegt in der Natur des 
Problems. Sorgt man dafiir, daB diese Differenzen nur geringe Abrundungsfehler 
enthalten — etwa durch Rechnen mit doppelter Genauigkeit —, so sind die in 
den ¢, enthaltenen Abrundungsfehler im allgemeinen erheblich kleiner als die 
€, selbst. In vielen Fallen kann man mit dieser Aussage zufrieden sein, ins- 
besondere bei nicht zu groBer Schrittzahl 2K. 

Wir wollen jedoch wirklich exakte Schranken haben und beschreiben nun, 
wie man die Abrundungsfehler genau erfassen kann und wie dies bei unserem 
Programm fiir die IBM 650 durchgefiihrt wurde. 

Mit y, bezeichnen wir jetzt die numerisch (mit bestimmter Stellenzahl) ein- 
gegebenen Naherungswerte. ¥, seien die daraus (ebenfalls mit bestimmter Stellen- 
zahl) ermittelten Zahlen F(t,, y,). Statt (2.2) hat man dann 


yi — Fé, y;)| So (5.1) 


mit einer gewissen Konstanten uy (s. (5.3)). Es gilt dann auch nicht mehr (3.4), 
sondern |d,(/)| Sj. (=—1, 0,1), und man bekommt daher statt (3.10), von 
(3.2) und (3.3) ausgehend, die Defektschranke 


DT, = L,+M,+N.+3bo- (5.2) 


Im Teil I des Hauptprogrammes und im UP 1 (Unterprogramm 1) zur Be- 
rechnung der Funktion F(, ~) mu8 man die Abrundungsfehler etwas vorsichtig 
erfassen. Wir geben die (bekannten) y, 10-stellig in der Festkommadarstellung 
(10 —, p) ein. Die Kommastellung kann dabei (abschnittsweise mit k) gewechselt 
werden. Fiir 4 sind nur Werte der Form h=«- 10° («=1, 2; 5; B ganz) zugelassen. 
Teil I und UP 1 werden — z.T. mit doppelter Genauigkeit — in Festkomma- 
darstellung gerechnet. Insbesondere erscheint das Ergebnis F(t, u) des UP 1 
20-stellig in der Darstellung (10—P, 10+). Die dabei in Teil I und UP 1 auf- 
tretenden sehr geringen Abrundungsfehler werden erfaBt, indem man eine Zahl uv 
eingibt. 

 majorisiert den Abrundungsfehler bei Berechnung der vorkommenden Werte 
von F(t, u) mit UP 1, wenn w selbst nur bis auf einen Abrundungsfehler / mit 
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|/|<5-107'**! bekannt ist. « darf eine grobe Schranke sein und ist meistens 
leicht zu bestimmen, wenn man beriicksichtigt, daB als Argumente w auBer den 
y, Nur yz, yz aus (2.4) vorkommen und diese Werte sich von den y, nur sehr 
wenig unterscheiden. Man kann von (2.4) ausgehend leicht Schranken fiir die: 
vorkommenden w angeben "™. 

Die ¥, ermitteln wir aus den mit UP 1 berechneten Werten F(¢,, y,) durch 
weitere Abrundung auf 10 Stellen in der Darstellung (10—P, P). Fiir die Kon- 
stante sg in (5.1) kann man daher 


Mg = 5+ 107(P +9 4 (5.3) 


verwenden. (Wir haben der Einfachheit halber grob 4y=6-10~'?*” gesetzt, 
bei allen Beispielen war diese Zahl gréBer.) 

Im Teil II kann man die Abrundungsfehler sehr einfach erfassen. Die dort 
berechneten GréBen gehen aus einseitigen Abschétzungen hervor. Wir rechnen 
Teil II in Gleitkommadarstellung und runden nach jeder Rechenoperation zur 
, ungiinstigen‘‘ Seite hin ab oder verandern bei Multiplikation mit festen Zahlen 
— wie in (4.14) — diese Zahlen (in der letzten Stelle) so, daB immer die gewiinsch- 
ten Schranken entstehen. 

‘Die Unterprogramme 2 bis 4 zur Berechnung der Funktionen y,, F, bzw. ®, 
werden ebenfalls in Gleitkommadarstellung gerechnet. Im allgemeinen kann man 
die Abrundungsfehler bei UP 2 und UP 3 und meistens auch bei UP 4 in der- 
selben einfachen Weise erfassen wie in Teil II. So sind wir z.B. bei den Aufgaben 
in Abschnitt 8 vorgegangen, abgesehen von UP 4 bei Aufgabe 4. 

Allgemein lassen sich Abrundungsfehler auch beriicksichtigen, indem man 
mit Zahlenpaaren statt Zahlen arbeitet. Wenn man fiir die Ausgangsdaten von 
Rechnungen obere und untere Schranken kennt, kann man auch fiir die Ergeb- 
nisse der darauf angewendeten (Grund-)Rechenoperationen solche Schranken 
angeben. Fiir die IBM 650 wurden die vier Grundrechenoperationen fiir solche 
zu Zahlenpaaren zusammengefaBten oberen und unteren Schranken (in Gleit- 
kommadarstellung) programmiert. Dabei muBten natiirlich auch die auftretenden 
Abrundungsfehler beriicksichtigt werden. Oft wird man wegen der fortlaufend 
notwendigen Abrundungen schlechte Ergebnisse erhalten, wenn man mit Zahlen- 
paaren arbeitet. Bei unserer Abschatzungsmethode werden die einzelnen GréBen 
jedoch in verhaltnismaBig kurzen und einfachen Rechenabschnitten berechnet, 
so daB es aussichtsreich erscheint, das gesamte Verfahren in Gleitkommadar- 
stellung mit Zahlenpaaren zu programmieren. Wir haben uns jedoch darauf 
‘beschrankt, das Rechnen mit Zahlenpaaren (mit gutem Erfolg) beim UP 4 der 
Aufgabe 4 auszuprobieren. 


6. Theoretische Genauigkeitsuntersuchungen 


In den Abschnitten 6a bis 6d zeigen wir zunachst, daB unsere Fehlerab- 
schatzung bei Verfahren vierter und niedrigerer Ordnung gute Schranken ver- 
spricht, wenn man mit geniigend groBer Stellenzahl und geniigend kleiner 





11 y kann abschnittsweise mit k gewechselt werden. Man kann yu auch als Funktion 
von p und P berechnen oder als Funktion jw (&, }, Ch), denn es gilt }<y, Sh, 
Numer. Math Bd. 3 4. 
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Schrittweite 4 rechnet. In Abschnitt 6e erlautern wir, wie sich ein nicht geniigend 
kleines 4 bemerkbar macht, und beschreiben dann in Abschnitt 6f, welchen 
EinfluB die Begrenzung der Stellenzahl hat. 


a) Zunachst sei vorausgesetzt, daB alle Rechnungen exakt (d.h. praktisch: 
mit geniigend groBer Stellenzahl) durchgefiihrt werden kénnen. Es gelte ¢,=0, 
und die Naherungswerte seien mit einem Verfahren g-ter Ordnung (g=0Q, 1, 2, ...) 
berechnet. Sei (/),¥9) ein beliebiger fester Punkt (4.<i,< 7, —oo<¥y<o), 
so gelte also 

V1 — U (ty + h) = O(h8**) 
mit 

i=Flt,i), (hy) =F (6.1) 
und der Naherung y, fiir #(f,+), welche man mit dem Naherungsverfahren 
von yy @usgehend erhilt. 

b) Es werde nun angenommen, daB 7, fiir irgendeine Schrittweite / eine 
Stiitzstelle ¢j=+¢,_, ist und ¥,=4,_, gesetzt. Es lassen sich dann beliebig kleine 
h angeben, fiir die 7, Stiitzstelle ist. Die Nummer & hangt natiirlich von h ab. 
Um die Formeln der vorangegangenen Abschnitte unmittelbar verwenden zu 
kénnen, schreiben wir im folgenden ¢,_,, &, t 1 statt f, fy+h, fy+2h (mit 


k=k(h)). 
Auf Grund der Ordnung des Verfahrens ergibt sich dann 
U (t,_1) 
Y, = | 4 (4) + 0 (h®*?) (6.2) 
U (ty .1) 
und daraus weiter 
it (t, 1) F(ty—1)Ve—1) — F(ty—-1,4 (ty-1)) /it (t, 1) 
yx ™. tt (t,) + | F(t,, Vx) — F(t, , (t,)) = | w(t) + O(h***), 
0 (ty 1) F (teas Ve+a) —F (ter, 4 (tess) 0 (ty 4.1) 


Entwickelt man die rechts in diesen Formeln vorkommenden GréBen # (¢;) und 
i (t;) an der Stelle ¢, nach TAYLOR bis zu Gliedern mit der Ableitung # (g=> 5) 
und setzt die so entstehenden Ausdriicke fiir y, und y, (mit den zugehérigen 
Lagrangeschen Restgliedern) in (2.4) ein, so erhalt man aus den ersten zwei 
Gleichungen: 


Put, 1) =H, 1) FOU) FOG) G=—1,1), (6.3) 
Pe(t 43) = ti (t, j) + O(H) +0 (He) (j= — 1,1). (6.4) 


Die Bestandteile O(h*) und O(h°) treten auch im Falle g >5 auf. Darin kommt 
zum Ausdruck, daB q,(t) ein Naherungspolynom fiinften Grades ist. 


12 Die Schreibweise O(h*%) soll hier wie im folgenden die Aussage einschlieBen, 
daB sich in der betreffenden Gleichung in der Regel « nicht durch eine gréBere Zahl 
ersetzen 1aBt. 

18 Fiir g=5 ist dies wegen der Differenzierbarkeitsvoraussetzung b) in Abschnitt 1 
sicher méglich. 





od 





a — “ 


ind 


Fehlerabschatzung mit Rechenanlagen 51 


(6.3) hat 
F(t, i + Pe (ty : i))= Fit, ist, , i)) +O(h*) +O 1) = (j=—1,1) (6.5) 


zur Folge. Aus (6.1), (6.4) und (6.5) schlieBt man weiter, da8 
a(t, 1) = lad (1) - 9, =O) +OM) = F=—1,4) 66) 
und damit nach (3.6) auch 
L, + M, =0(h*) + O(h8) (6.7) 
ist. AuBerdem gilt wegen (3.11) 
N, =O (h*), (6.8) 


insgesamt also 
Ti, =O (h°) + O(h8). (6.9) 


Aus (3.9), (6.9) und (6.6) ergibt sich schlieBlich 
d,, (t) =O (h*) +. 0 (h') (44-1 S¢Sty1)- 


Der Bestandteil L,+ M, der Schranke J} ist in 4 von derselben Ordnung wie 
der Defekt d, (¢) selbst und hat aber auch numerisch etwa die GréBe des Defektes, 
denn es gilt: 


oe | falls d,[7] =d,[— T] 
L, + M, S 4 1,03 ‘max | d, (t)| 4 falls d, [7] = — d,[— 1] (6.10) 
awl ver ailyemein. 


Falls also .\,, gegeniiber L, -+ M, klein ist, wird der Defekt durch J} gut abgeschatzt. 
Fiir Verfahren vierter und niedrigerer Ordnung ist dies durch Wahl einer geniigend 
kleinen Schrittweite h (theoretisch) zu erreichen. Benutzt man dagegen Nahe- 
rungsverfahren einer Ordnung g=5 (oder die Werte y,=w«f), so erhalt man 
L,+M,=0 (h*), N, =O (h®) und kann nicht erwarten, daB J;, eine gute Schranke ist. 

c) Je genauer man die Funktion ¥ in (3.8) abschatzt, desto gréBere Werte h 
kann man praltisch benutzen. In ®, gehen die Schranken (2.7) fiir die Ablei- 
tungen g\'~ ein, welche sich aus (2.5) ergeben. Fiir i=4 werden diese Schranken 
auBerdem in (4.2) und (4.3) benutzt. Wir untersuchen ihre Genauigkeit. Der 
Vektor x, hat die Form 
u (t,) 
2hu (t,) 
h? u (t,) 
h3/3 ui (t,) 
h1/6 a (t,) 
O (h*) / 
Da bei M(r) die Elemente in und unterhalb der Hauptdiagonalen verschwinden, 
haben die Komponenten der Vektoren H M(r)x, und HM |x,| die GréBenordnung 
O(h). Deshalb gilt 

b+ O(n) =o) =n +0), — || =CL 40H) 


(t,_ 4S tS byiy3 §=1,2,...,6). 


-++ Glieder jeweils héherer Ordnung in /. 


(6.11) 


to 


4* 
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Bei geniigend kleinem A sind &, 7, und ¢; also gute Schranken ‘fiir die Ablei- 
tungen g{'~”) (Z). 

d) Wenn wir die Ordnung der Fehlerschranken ermitteln wollen, miissen wir 
beriicksichtigen, daB k von A abhangt, und zwar in der Form h(k—1)=const. 


Mit den Formeln (4.7) bis (4.12) kann man eine Darstellung 


€i41= 6 -1(1+6,4+0(h%)) +h7;(2+Ch+40(h)) 
(c;, C; Konstanten; 7 = 1, 3,...,2K — 1) 


herleiten. Hieraus ergibt sich mit ¢,=0 und h(k — 1) =const. wegen (6.9) rekursiv 
&,_1 = O(h*) + O(AS). (6.12) 
Auf Grund der Ordnung des Verfahrens 14Bt sich ferner 
Op—1 = Ve-1 — U* (ths) =O (AF) 


beweisen. Im Falle g<5 haben die Schranken also in h dieselbe Ordnung wie 
die wahren Fehler. 

Wir wollen nun untersuchen, ob ¢,,, numerisch eine gute Schranke darstellt, 
wenn dies fiir ¢,_, der Fall ist, und feststellen, welchen Einflu8 neben (3.8) die 
Abschatzungen (4.2) und (4.3) haben. Die optimale Lésung der Aufgabe (4.1) 
verspricht bei geniigend kleinem h/ eine gute Schranke, da die Ableitung F’(t, ¢,) 
und damit der ,, Hauptbestandteil“ F(¢, m,) +F'(t, p,) (« —y,) der Funktion F(¢, u) 
voll beriicksichtigt wird. Fiir die praktische Rechnung bleibt kaum eine andere 
Wahl, als zu einer Aufgabe (4.4) mit von ¢ unabhangigen J}, y,, F, iiberzugehen. 
Es sei nun h geniigend klein. Dann 14Bt sich folgendes aussagen. 

F'(t, y,) wird sich in J, wenig andern und daher gut durch eine Konstante 
majorisieren lassen. Da y, die Fehlerabschatzung aber entscheidend beeinfluBt, 
sollte man in (4.2) méglichst gut abschatzen. Das ist meistens méglich (s. dazu 
auch (6.11)). 

DaB F, von ¢ unabhangig gewahlt wird, wirkt sich ebenso nur wenig aus. 
Diese Funktion wird in (4.10) benutzt. Man erkennt, daB sie nur fir kleine z 
benétigt wird und im allgemeinen gegeniiber y, nur geringen EinfluB hat, denn 
es gilt (4.3b) und e,_, war als klein vorausgesetzt (s. auch (4.9), (6.9) und 
(6.12)). Dementsprechend kann man in (4.3) groBziigiger abschatzen. 

Der geringe EinfluB von F, hat zur Folge, daB y$~ yi und daher www} 
ist. Ferner unterscheidet sich aber w} von w, aus (4.5) héchstens um eine GréBe 
O (h8) +0 (h8*?). : 

Wir nehmen nun an, daB y, die Funktion F’(¢, y,) gut abschatzt und F, 
geringen Einflu8 hat. Wenn wir feststellen wollen, wie es sich auswirkt, daB 
|d,(¢)| durch Jj ersetzt wird, brauchen wir w? nur mit der Lisung @, der Aufgabe 


|, (t)| =D, — ye Dy, Dy (C41) = &x-1 | 


zu vergleichen, die sich nur wenig von der optimalen Lésung des Problems (4.1) 
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t 
unterscheidet. @, enthalt das Integral f e~¥*~-"-) |d,(s)| ds. Ersetzt man in 
tka 
diesem Integral | d,(s)| durch [j,, so ergibt sich w?. 

Entscheidend ist also die Giite der Schranke J}, und wir kénnen daher zu- 
sammenfassend feststellen: Fiir Verfahren einer Ordnung gS5 haben die 
Schranken ¢; dieselbe Ordnung wie die wahren Fehler 6;. Numerisch gute 
Ergebnisse darf man bei geniigend kleinem’h (und guter Abschatzung (4.2)) im 
allgemeinen fiir den Fall g< 4 erwarten. 


e) Wir beschreiben nun, wie es sich im Falle g<4 auswirkt, wenn h/ nicht 
geniigend klein gewahit wurde. Gewohnlich wird dann die Fehlerabschatzung 
vor allem dadurch schlechter ausfallen, daB der Summand N, in (3.10) iiberwiegt. 
N, ist nach (3.11) eine Funktion der &,,,,¢,. Diese Argumente dndern sich 
aber mit den verwendeten Naherungen y, nur wenig, wenn die y, geniigend 
genau sind (vgl. (2.5), (2.7)). In einem solchen Falle ist N, etwa gleich N¥* 
(wenn wir alle zu den AusgangsgréBen uf gehdrigen GréBen mit einem Stern 
kennzeichnen). Da aber ferner nach b) L,+M,=O(h*) und L$+ M*=O(h') 
ist, wird Ly + M*<L,+M, und damit gewodhnlich J;*< J, sein. Die kleinsten 
Fehlerschranken sind also fiir die Naherungen uf zu erwarten. Zur theoretischen 
Untersuchung der Ergebnisse bei unseren Beispielen (Abschnitt 8) kénnen wir 
daher die Faustregel aufstellen: / ist immer dann ,,nicht geniigend klein‘‘ gewahlt, 


wenn die wahren Fehler 6,= y, — uf einer Naherung gegeniiber den Schranken ef 


klein ausfallen, denn sie sind dann gewéhnlich auch in mindestens demselben 
MaBe klein gegeniiber den zugehérigen Schranken ¢,. 


f) Die Genauigkeit der Ergebnisse kann entscheidend dadurch beeinfluBt 
werden, daB man nur mit einer bestimmten Stellenzahl rechnet. Insbesondere 
kann es dadurch praktisch sinnlos werden, eine geniigend kleine Schrittweite 
im Sinne der vorangegangenen Ausfiihrungen zu benutzen. (Wir sehen hier 
davon ab, daB der GréBe von h auch anderweitig Grenzen gesetzt sind.) 


Die y, werden bei unserem Programm z.B. 10-stellig eingegeben, und auch 
die y, werden nur 10-stellig berechnet. Sind die Fehler 6, der y, ,,zu klein“, 
liegen sie also etwa in den letzten eingegebenen Stellen, so werden bei den «, 
die Aufrundungen merkbar, welche die Abrundungsfehler beriicksichtigen. Ins- 
besondere kann dann der Summand 3, in (5.2) eine Rolle spielen. Man kann 
dann keine (relativ) giinstigen Schranken erwarten. 


7. Praktische Durchfiihrung der Abschatzung im konkreten Fall 


_ Will man fiir eine spezielle Aufgabe (1.1) eine Fehlerabschatzung mit einer 
Rechenanlage durchfiihren, mu8 man der Rechenanlage die Funktion F(é, u) 
und ihre wesentlichen Eigenschaften mitteilen. Dazu hat man einige theoretische 
Uberlegungen anzustellen und das Hauptprogramm durch Unterprogramme zu 
erganzen. SchlieBlich sind die erforderlichen Daten einzugeben. 

Wenn man unser fiir die IBM 650 entwickeltes Programm benutzt, hat man 
praktisch folgendes zu tun (in B.1 und C verzichten wir auf eine ausfihrliche 
Darstellung) : 
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A, 1. Man ermittele (von ¢ unabhangige) Funktionen y, (&, 7, ¢1) derart, daB 


ZF bw) Sp (no) 


fiir 
4» StShir, sus, |w| <7 (7.1) 


gilt (k=1,3,5,...,2K—1). 
2. Man ermittele (von ¢ unabhangige) in z stetige und wachsende (nicht 
fallende) Funktionen F, (z, &', 7, ¢*), derart, daB 


|F(t,u +2) —F(t,u) — F(t, u) 2| <|z| K(|z|, 27,2) 
F, (0, 2,9,0) =0 
fiir (7.1) und —co<z< ow gilt (k=1, 3,..., 2K —1). 


3. Man stelle d5/déF(t, u(t)) bei gegebener fiinfmal stetig differenzierbarer 
Funktion u(¢) als Funktion Y(¢, u(t), #(¢),..., w(d)) dar und ermittele (von ¢ 
unabhangige) Funktionen ®, (&},, 7, ¢}), derart, daB™® 


|W(t, u,v, ..., u)| < D, (EF, 0, 2’) (7.2) 
fiir 
hiSstSthi, Ful VMS, |u| st (7.3) 


gilt (¢=1, 2,...,6; R=1,3,...,2K —4). 
(Die Funktion y, erfaBt das Verhalten der Ableitung F’(t, y,), welches fiir 


die Fehlerfortpflanzung (in erster Naherung) entscheidend ist. F, beziicksichtigt 
die Nichtlinearitat der Funktion F(t, u), ihr Abweichen vom ,,Hauptbestandteil“ 
F(t, p,) +F'(t, p,) (4 —y,). Die Abschatzung (7.2) mit der Funktion ®, bendtigen 
wir, um den Verfahrensfehler des zugrunde gelegten Naherungsverfahrens voll zu 
erfassen.) 


B. 1. Man erginze das Hauptprogramm durch Unterprogramme 1 bis 4 zur 


Berechnung der Funktionen F(t, u), y, (&, 7}, 2), F,(z, El, 93,01), D, (&, n', C'). 
(Fir die Argumente dieser Funktionen und die Funktionswerte selbst sind be- 
stimmte Adressen vorgeschrieben. Die letzten drei Funktionen! werden in Gleit- 
kommadarstellung gerechnet, F(¢, «) in Festkommadarstellung. Und zwar er- 
mittelt man mit Unterprogramm 1 aus 10-stelligen Werten u in der Darstellung 
(10 — , p) 20-stellige Werte F(t, u) in der Darstellung (10—P, 10+ P).) 


14 Die Werte der nach A herzuleitenden Funktionen y,, F, und ®, werden im 
Programm jeweils nur fiir die Argumente &}, 7}, ¢, aus (2.7) benutzt. Die hier ange- 
gebenen Ungleichungen brauchen daher auch nur fiir solche &, n', * zu gelten. Im 
allgemeinen kennt man die GréBe dieser Zahlen wenigstens fiir i=1 ungefahr, da 


die y, bekannt sind. Man kann sich bei der Herleitung von y,, F, und ® auf den in 
Frage kommenden Bereich beschranken, mu8 im Programm dann aber priifen, ob 
die jeweils eingesetzten Argumente &', n', f* in diesem Bereich liegen (ob also z.B. 
&1>0 gilt oder dgl.). 

18 Wund die ®, brauchen nicht explizit angegeben zu werden (s. Aufgabe 4 in Ab- 
schnitt 8). 

16 Zur Beriicksichtigung der Abrundungsfehler bei den Unterprogrammen 2 bis 4 
s. die letzten drei Absatze von Abschnitt 5. 
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2. Man ermittele eine grobe Schranke w fiir den Abrundungsfehler bei Be- 
rechnung der vorkommenden Werte von F(t, u) mit Unterprogramm 1, wenn u 
selbst nur bis auf einen gewissen Abrundungsfehler bekannt ist. Genauer gelte: 


|F(t, uv) —F(t,a)|<p fir |u—a|<5-10-%+™, 
tpg StStyi1,uCU, (kR=1,}3,...,2K —1) 


mit der Zahl F(t, %), welche Untergrogramm 1 fiir F(t, %) liefert. U, bedeutet 
ein Intervall, welches auBer den Werten y,_1, Yx, Ves, die durch (2.4) ge- 
gebenen Zahlen y;, y; enthalt. (y; und y; unterscheiden sich nur sehr wenig 
von y,. Zum Beispiel ist U,=[&}, 7,] mit &}, 1} aus (2.7) geniigend groB. Prak- 
tisch kann man fiir U, im allgemeinen ohne Schwierigkeiten ein geeignetes Inter- 
vall wahlen.)"™ 


C. Man gebe folgende Daten ein?’: 
y, (k=0,1,2,...,2K), h, K,p~, P, uw und eventuell ey. 


8. Numerische Erfahrungen 


a) Im Abschnitt 6 haben wir die Genauigkeit der Fehlerabschatzung theore- 
tisch untersucht und folgendes festgestellt: Fiir Naherungsverfahren vierter 
und niedrigerer Ordnung waren bei geniigend kleinem / gute Schranken zu er- 
warten, wenn man mit geniigend groBer Stellenzahl rechnen kénnte. A ist ,,nicht 
geniigend klein‘‘, wenn die wahren Fehler 6, gegeniiber den zu uf gehdérigen 
Schranken ef klein sind. Je niedriger die Ordnung des Verfahrens ist, desto 
gréBer darf h sein. A ist ,,zu klein’, wenn die wahren Fehler 6, der y, in den 
letzten eingegebenen Stellen liegen. 

Die Beispiele dieses Abschnittes sollen uns zeigen, wie sich die Fehlerabschat- 
zung bei verschiedenartigen Aufgaben verhalt, insbesondere sollen sie uns aber 
folgende Fragen beantworten. Sind die praktisch brauchbaren Schrittweiten / 
in obigem Sinne weder ,,nicht geniigend klein“ noch ,,zu klein‘? Fiir Verfahren 
welcher Ordnung ist dies der Fall? (Es sei nochmals darauf hingewiesen, daB 
sich die Verhaltnisse entscheidend andern, wenn man mit anderen Stellenzahlen 
rechnet, die Formeln des Abschatzungsverfahrens aber beibehilt.) 


b) Bei den in Spalte 2 der Tabelle 1 zusammengestellten Anfangswertaufgaben 
wurden Naherungswerte mit den in Spalte 4 angegebenen Verfahren ermittelt. 
Wir verwendeten das iibliche Runge-Kutta-Verfahren vierter Ordnung (mit 
RK“ gekennzeichnet) und das verbesserte Euler-Cauchy-Verfahren (,,VEC“, 
2. Ordnung) und berechneten Ausgangswerte y, ferner durch Extrapolation 
(beziiglich 4) aus Naherungen, welche man mit dem verbesserten Euler-Cauchy- 
Verfahren bei verschiedenen Schrittweiten bekommt (,,VEC-Extr.‘‘). Benutzt man 
dabei zwei Schrittweiten (hier A= 0,05 und h=0,1), so sind die y, Naherungswerte 
dritter Ordnung, bei drei Schrittweiten (hier h= 0,02; h=0,05 und h=0,1) solche 
vierter Ordnung. Bei den Aufgaben 1, 2 und 4 lassen sich die y, mit den Werten 
der in Spalte 3 genannten exakten Lésung vergleichen. Diese Aufgaben sind 
instabil beziiglich der Fehlerfortpflanzung. 





17 h, uw, p und P kénnen abschnittsweise gewechselt werden. 
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Die in Tabelle 1 direkt angegebenen GréBen y,, Ff, und ®, berechnet man 
ohne Schwierigkeiten. Um ®, zu ermitteln, wurde bei den Aufgaben 1 bis 3 
die Ableitung d5/di'F (¢, u(t)) explizit als Funktion Y(t, u,%,..., w) dargestellt 
und dann grob abgeschatzt entsprechend (7.2). 

Bei Aufgabe 4 dagegen ist es recht miihsam, Y in geschlossener Form hinzu- 
schreiben. Aufgabe 4 wurde gerechnet, um zu zeigen, daB man auch in einem 


Tabelle 1. Zusammenstellung der Beispiele 



























































Nr. Anfangswertaufgab Exakte Lésung | Benutzte Naherungsverfahren 
. 1 1 
: u=u—t+ tat (+0? VEC bei h=0,02; 
at u(0)=0 | aa eat teen 74 RK bei h=0,1; 
u=u?+ 3—(1+2)? VEC-Extr. bei A=0,05 und h=0,1; 
2 | u(0)=0 VEC-Extr. bei h=0,02; h=0,05 und 
h=0,1 
, n a ’ 
; u=cos > u+sin > ¢ 1 RK bei 4=0,2; 
u(0)=0 RK bei h=0,1 
4| #=Vite aid ues RK bei h=0,1; 
u(0)=0 RK bei h=0,05 
Nr. | ve (8, 0}, ¢") | Fe(s, €,n', 0%) y (84, nf, 4) 
1 | 1 O 6 ! 5 it = 
| C+ 5! (ag)5(1+6a,) mit oy <<. 
2 20° Zz 20% 2?+ 1008 C#-+ 2008 C8 
arp {c8 (2%)® +08 [150%(6%)?+ 10(0%)* 04) +c 083+ 
+ Br {c*- 10(2?) C3+-c2 [10¢8 c445¢2 C5} +5} 
2 it: 
3 |—= - min |sin— &, sin »} —s 1 “ 
3 3 2 4 Ces a, = max[|sin¢ t,_,|, | sin ¢th+4,/], 
Bp = max[|cosc tp_,|, | coscte+,]] 
4 fh. (4+ (01)2)-4 4(1+(&1)%)~4-2| siehe Text, insbesondere (8.3) 





solchen Fall zu brauchbaren Ergebnissen kommen kann. Man ermittelt die Ab- 
leitung d°/dt5F(t, u(t)) hier am besten rekursiv durch fiinfmalige Differentiation 
der Gleichung F?=1 + w?: | 


Ft=1+ #3, 
FF=uu, 
FF + (F)?=uii+ (1)? 


(8.1) 


ee tee 








as danas 
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Aus diesen Beziehungen kann man durch grobe Abschatzung mit (7.3) unter der 
Aufnahme £120 verhiltnismaBig einfach nacheinander Schranken fiir |F|, 


|F|,...,|F®| berechnen: 
Tabelle 2. Aufgaben 1 und 








| F| s Vit. (¢1)2 =v 2; exakte Lésung 
|F| ScOtl*@=r? mit c= (1+ ()*)-4, t u(t) 
|F| Sc[t*l? + (C2 + )4] =", 04| 0,685 714286 


08 | 1,244444444 

1,2 | 1,745454545 

° 1,6 2,215 384615 

Die Wahl 2,0 |  2,666666667 
O,= (k=1,}3,...,.2K —1) (8.2) 40] 4,8 

6,0 6,857 142857 


verspricht jedoch Keine guten Ergebnisse. 8,0 |  8,888888889 
a ee 12,0 | 12,923076923 
Eine erheblich bessere Abschaétzung haben wir in 460 | 16,941176471 


folgender Weise erhalten. Fiir die rechts in (8.1) 20,0 | 20,952380952 
vorkommenden Funktionen wu, #, ..., «) sind in (7.3) 

obere und untere Schranken gegeben. Mit Hilfe des bereits in Abschnitt 5 er- 
wahnten (Gleitkomma-)Programmes fiir das Rechnen mit Zahlenpaaren wurden 
aus (8.1), (7.3) nacheinander Zahlenpaare («’, f’) mit 





asd /dti-'F(t,u()) <p = (i =1,2,...,6) 


berechnet. Dies Programm beriicksichtigt alle Abrundungsfehler und man kann 
dann setzen 
®, = max (|a*|,|6%|) (k= 1,3,...,2K —1). (8.3) 


Tabelle 3. Aufgaben 1 und 2; Fehler und Fehlerschranken 




















P VEC bei h=0,02, Aufgabe 1 VEC bei 4=0,02, Aufgabe 2 
te ee mene Ss ey Ee Se ee eee eee ee Le eee ee 

Ox | ek ox & 
20 | 0,4 | 0,000116012  0,000222770 0,000089676 0,000 171 664 
40 | 0,8 214556 | 411479 376253 537672 
60 | 1,2 339266 | 650 343 986940 1959877 
80 | 1,6 516476 | 989880 4881676 9959579 
100 | 2,0 | 0,000776676 | 0,001488517 0,034 605 554 0,075 151909 


c) Bei den Fehlerabschatzungen fiir die berechneten Naherungswerte wurden 
die Abrundungsfehler iiberall voll beriicksichtigt. Fiir die Aufgaben 1, 2 und 4 
haben wir zum Vergleich auch Schranken ef fiir die (abgerundeten) exakten 
Werte uf als Ausgangsnaherungen ermittelt. Die Tabellen 2 bis 7 enthalten die 
Ergebnisse. Die wahren Fehler sind jeweils mit den Stellenzahlen aufgefiihrt, 
mit denen die zugehérigen Naherungen eingegeben wurden. Die ¢, nennen wir 
— jeweils nach oben abgerundet — mit der gleichen Stellenzahl. 

Bei der (linearen) Aufgabe 1 (Tabellen 2, 3 und 4) ergibt die fiir das Runge- 
Kutta-Verfahren benutzte Schrittweite s=0,1 eine ,,Schrittkennzahl“‘ S=0,1. — 
Die Aufgaben 1 und 2 haben dieselbe exakte Lésung. Um zwischen diesen 
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Aufgaben vergleichen zu kénnen, wurde bei der nichtlinearen Aufgabe 2 (Ta- 
bellen 2, 3 und 5) mit denselben festen Schrittweiten gerechnet. Wegen des 
starken Anwachsens der Naherungswerte und F’(t, u)=2u hatte man hier die 
Schrittweite mehrmals wechseln miissen. So diirften die Ergebnisse fiir 
gréBeres:¢ wenig Aussagewert haben. Die Naherungsverfahren lieBen sich nur 
bis zu bestimmten ¢-Werten durchfiihren, beim Runge-Kutta-Verfahren bis 
t=3,7. (AnschlieBend traten Zahlen >10* auf, die von der Rechenanlage — 
bei Gleitkommarechnung — nicht verarbeitec werden konnten.) Auch das 
Fehlerabschatzungsvertahren arbeitete nur bis zu bestimmten ¢-Werten. Beim 


Tabelle 6. Aufgabe 3; Nadherungen und Fehlerschranken 






































k bei RK bei h = 0,2 RK bei h = 0,1 
: ty [oo | A] RK bei A = 005 
‘oa an | Ons : ke fk Vk | & ad 
2)| 4 8] 0,4 | 0,486012131 | 0,000061 170 | 0,486027 392 | 0,000002483 | 0,486028 344 
4| 8] 16] 0,8] 0,962426082 116905 | 0,962455 563 4837 | 0,962457442 
6 |12 24 | 1,2] 1,273 252342 134159 | 1,273 284822 5421 | 1,273286845 
8 |16 32] 1,6] 1,384834087 115610 | 1,384858949 4401 | 1,384 860464 
8 |16 32] 1,6] 1,384 834087 115610 | 1,384858949 4401 | 1,384 860464 
28 |56 1112] 5,6] 1,463054472 66817 | 1,463060481 | 0,000002185 | 1,463 060 866 
48; 9,6] 1,463 377461 | |! thi a al 
68 13,6] 1,463 378818 66 388 
88 17,6] 1,463 378 824 66 387 
68 13,6] 1,463 378818 66 388 nicht nicht nicht 
72 14,4] 1,085 197493 31022 berechnet | berechnet berechnet 
76 15,2] 0,596096096 19269 
80 16,0 | 0,658 380850 16038 | 
84 16,8 | 1,196800878 48 580 | 
88 17,6] 1,463 378824 | 0,000066 387 








Runge-Kutta-Verfahren wurde z.B. fiir ¢=2,8 die Bedingung (4.7) verletzt, 
worin zum Ausdruck kommt, daB dort A=0,1 ungeeignet ist. — Fiir die Auf- 
gabe 3 (Tabelle 6) erhielten wir bis = 1,6 wachsende Naherungen. AnschlieBend 
zeigen die y, ein annahernd periodisches Verhalten. Die ,,Periode“ ist 4, in der 
Tabelle 6 findet man die bei ¢=1,6; 5,6; ...; 17,6 angenommenen Maximalwerte. 
Mit wachsendem ¢ werden die Unterschiede zwischen den zugehérigen Werten 
aufeinanderfolgender Perioden immer geringer. Die y,-Spalte fiir h=0,2 enthalt 
zum SchluB einige Naherungen des Intervalles 13,6<¢< 17,6. Bei den Fehler- 
schranken bildet sich in ahnlicher Weise eine Periode heraus. — Bei Aufgabe 4 
(Tabelle 7) wurde die Funktion ®, aus (8.3) verwendet. Mit der Funktion ®, 
aus (8.2) erhalt man bei h=-0,1 Schranken, die etwa drei- bis fiinfmal gréBer 
sind als die mit (8.3) berechneten. 

d) Die numerischen Ergebnisse sind durchweg befriedigend. Fiir Verfahren 
einer Ordnung g<4 und die bei unserem Programm benutzten Stellenzahlen 
sind die verwendeten Schrittweiten offenbar weder ,,nicht geniigend klein“ noch 
,zu klein“. Beim Runge-Kutta-Verfahren vierter Ordnung sind die 6, zwar 
zum gréBten Teil kleiner als die ef, jedoch nicht entscheidend kleiner, und die 
relative Giite der Schranken ist auch hier noch sehr befriedigend. Fiir die jeweils 
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Tabelle 7. Aufgabe 4; Exakte Lésung, Fehler und Fehlerschranken 
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giinstigste der verwendeten Schrittweiten 
betragt die Schranke beim Rungé-Kutta- 
Verfahren bei Aufgabe 1: etwa das 3-fache, 
bei Aufgabe 2: etwa das 10-fache, bei . 
Aufgabe 4 (fiir gréBere ¢-Werte): das 3- 
bis 4-fache des wahren Fehlerbetrages. 
Bei den genaueren Werten vierter Ord- 
nung, welche man durch Extrapolation 
erhalt, sind die Abschatzungen — ins- 
besondere fiir kleine ¢-Werte — nicht so 
gut. Man kénnte die Ergebnisse fiir Ver- 
fahren vierter Ordnung sicher erheblich 
verbessern, indem man im Teil I des 
Programms mit etwas gréBerer Stellen- 
zahl rechnet. 

Wir machen noch auf folgende Er- 
gebnisse aufmerksam. 1. Die Giite der 
Schranken — bezogen auf die wahren 
Fehler — wichst in vielen Fallen mit 
zunehmender Schrittzahl. 2. Der periodi- 
sche Charakter der Aufgabe 3 wird von 
der Fehlerabschatzung erfaBt. 3. Bei Auf- 
gabe 4 haben wir darauf geachtet, welche 
Rechenzeiten man bendétigt, um die Nahe- 
rungen zu ermitteln bzw. deren Fehler 
abzuschatzen. Niaherungsrechnung und 
Fehlerabschatzung erforderten fast die 
gleiche Zeit. Dazu mu8 man allerdings 
sagen, daB die Runge-Kutta-Werte y, 
18-stellig berechnet wurden. Will man 
mehr Stellen der y, bei der Abschatzung 
beriicksichtigen, dauert die Fehlerab- 
schaétzung natiirlich langer. Man kommt 
jedoch ‘nicht damit aus, die y, mit ein- 
facher Genauigkeit (8-stellig in _Gleit- 
kommadarstellung) zu berechnen. Man 
muB die’ Naherungsrechnung auch mit 
mehr als 10 Stellen durchfiihren, damit 
die eingegebenen y, médglichst wenig Ab- 
rundungsfehler enthalten. AuBerdem ist 
die Aufgabe 4 beziiglich der Rechenzeit 
insofern die ungiinstigste unserer Aufgaben, 
als dort die Funktion ®, komplizierter ist 
und ihre Werte jeweils mit Hilfe des Pro- 
grammes fiir Zahlenpaare berechnet wur- 
den. 4. Die vorhandenen 2000 Speicher- 
platze reichten bei unseren Beispielen fiir 








————Ee 





—————— 
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das Hauptprogramm, die Unterprogramme und 100 y,-Werte gerade noch aus. 
Jedoch wiirde eine gréBere Speicherkapazitat die im konkreten Fall erforderliche 
Arbeit erleichtern. 
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Fehlerfortpflanzung bei Interpolation 
. Von 
A. SCHONHAGE 


1. Gegeben seien Argumente %)< %,<---< x, (n=2) und Werte y,, die durch 
ein Polynom A,(x) vom Grade  interpoliert werden. Es soll untersucht werden, 
wie sich Fehler 6,, mit denen die Ausgangswerte behaftet sind, auf A,(x) aus- 
wirken, wahrend das Interpolationsverfahren selbst als genau vorausgesetzt wird. 
Man betrachtet also auBerdem A(x) mit A(x,)=y,+6, und die Differenz 

P(x) = A(x) — Ag(x) mit P(x,) =64,. 


Aus | 6,| Se, folgt nach LAGRANGE 
n n s—¥ n n 
> o IT =| = de TT 
v=0 w=0 °” # v=0 u=0 
B+ ute 
diese Schranke ist die beste, denn sie wird bei festem § von dem durch 


Qs(4,) = e,sign [J 2—*« 
p=0 


vy *p 


cine 


Xy—*y 


| P(é)| = = E(é); 














uty 
bestimmten Polynom angenommen. Falls [&,, &] kein x, enthalt, gilt Q. = Qz,. 
E(é) setzt sich also sttickwetse aus Polynomen zusammen. 

Fiir spezielle Werte x,, ¢,,& ist die Fehlerabschatzung danach numerisch 
immer méglich. Fiir weitere allgemeine Untersuchungen sei nun die Gleichheit 
der ¢, und (ohne Einschrankung) ¢,=1 (v=0, 1, ..., m) vorausgesetzt. Betrachtet 
wird 

M = {P(x)||P(x,)|S1} und M= max | P(é)|; 
PEM ” 

M hangt nur von der Lage der x, ab und wird durch lineare Transformationen 
X,=ax,+b (a+0) nicht geandert. 

Hier sind folgende Satze von N. S. BERNSTEIN zu nennen (vgl. [/]): 

Fiir beliebige Verteilung der x, gilt M> A 

Ps 4 
\ == — cos (27+! x) ; 
Im Falle der Tschebyscheff-Knoten x,= cos ( os | ist 
M<8+ *lg(n+1). 


2. Hier soll nun der aquidistante Fall x,y diskutiert werden. Fiirk—1S*Sk 
gilt E(x) = E,(x), wobei das Polynom £, (x) durch 


(—1)*-!-" fir vs k—1 
(—1)*-" = fir vk 


festgelegt ist. E,(x) sei extremal genannt, wenn : max_E,(x)=M : 
tare 


Ex(x) =| 








3484 — 3 











3484 — 3 
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Satz 1. Genau E,(x) und E,,(x) sind extremal. 


Indirekter Beweis. Da E, und E,, bis auf Spiegelung oder Drehung gleich 
sind, geniigt es zu zeigen, daB die iibrigen E, nicht extremal sind. Annahme: 
Fiir 1<k<n (n=}3) und x’ €(k—1, k) sei E,(x’)=M. E, hat n—T Nullstellen 
innerhalb von [0, ”], also héchstens eine Nullstelle z¢ [0, ]; es kann z<0 ange- 
nommen werden (andernfalls betrachte man E,,,,_ »(X)), so daB also 


sign E, (m+ 1) = sign E, (nm) = (— 1)*-*. 
G(x) = E,(x) + (—1)*+3-" Meine +s. IT «- 
erfiillt G(v)=E,(v) (v=1, 2,..., m) und 
G(n +1) =E,(m +1) + (—1)**2-"| BE, (m + 4)| + (— yh to" = (— 1h, 


also |G(v)|=1 an den +14 Aquidistanten Stellen y=1,...,.n+1. DaM gegen- 
iiber linearen Transformationen invariant ist (hier Verschiebung um 1) und 
x'E(1,"—1), ), folgt |G(x’)| SM. Wegen - 


sign {(- ern TT (x’ — »)} = (— 1)*#-" sign {I (x’ — = 


ist im Widerspruch dazu G (x’) > E, (x’)=M 

3. Im folgenden wird E,(x) vom Grade m zu den Punkten x,=yv mit P, (x) 
bezeichnet ; fiir M, = max P, (x) gilt 

0<x<1 

antl 
e-n:(Ign+C) 
Beweis. Nach NEwTon hat man P, (x) =1+ >» Q,(x) 

v=2 





Satz 2. M,~ (C=0,577.. Eulersche Konstante). 


v—1 


Q(x) =(— 1-252 TT (x—-w; GO Yo so far x=} 


y! 
#u=0 


Da die Q, in (0, 1) samtlich positiv sind, folgt P/(4) <0; das Maximum M, liegt 
also im Intervall 0< *<}, auf das sich die folgenden Abschatzungen beziehen. 


Nach LAGRANGE ist 


P,(x) = Ta" +d srt TT = 


u=1 y=1 - 
ytd 





= 11 (!-3)(++*() 44). 


v=1 
n x n * n" 1 
~ . . 
[J (1-=)< [Te » =e-'*  worin h,=))- 3 
v=1 vy=1 v=1 


If 6~2)> Hf b- B)> ete S4. 
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wv on! tine _ atli-n—2 | 
aoe v!(n—y) )! pam ‘ > iF P (v+1)! ( n—vy)! Pat nat 1 r | 
oe n+1) ith 8. td. : 
Be al + OCs seit | 
i 
See eee ee ee 
y—xX v+1 (v—x) (v-+1) — (v+1) (v+2) ° 
also 
i 4 ve gnt+i 18 
<5 + peace ore n+1 ( + saa) 


Damit laBt sich P,(x) durch die Funktionen 














+1 o.) 
Tabelle 1 on —hyx 2" =-( 18_ 
elle f(x) = 1+ 26-Ms = — ogre g 
gn+1 
Mn | em(len + C) und 
claim gnt+l ( m2 ) 
&) = we M* <__. (4 — —---# 
2 1,250 1,158 8 (*) n+41 6 ¥ 
3} 1,631 | 41,474 wT! 
4 2,208 | 4,499 einschlieBen: g(x)< P,(x)</(x). 
5 | 3,106 2,153 1 
6, 4,549 3,313 f(x) hat sein Maximum an der Stelle <8; 
7} 6,930 5,332 n 
4 10,946 8,862 ont - 
9| 17,849 15,068 (*) M,, < f(a) =1+ 1+ —-};: 
10} 29,900 26,162 ehy(n+1) \ aa3)i ‘ 
20} 1,099/04 1,080/04 PO ty ( _ * 1)\,. 
30; 6,601/06 | 6,619/06 M, > g(a) @ hy (u+1) 6 ag) 
40 4,692/09 4,741/09 
/ / 
50 3,640/12 | 3,690/12 wegen h,=lgn+C+0O | ») folgt damit die 


(/xx bedeutet -10**) : . 

asymptotische Aussage in Satz 2. i 
Die Abschatzung (*) 1a48t sich im letzten Faktor noch etwas verbessern, 

aber von gréBerem Interesse diirften hier einige numerische Angaben sein 

(vgl. Tabelle 1). 


4. Im Gegensatz zu den groBen Abweichungen am Rande ergibt sich fiir die 
Mitte des Intervalls (x,, x,) eine Abschatzung fiir E(x), die mit den Bernstein- 
schen Ergebnissen verwandt ist. Der Einfachheit halber sei nur ungerader Grad i 
n=2r+1 betrachtet. Dann hat E,,,(x) in (7,7+1) sein Maximum m,, aus 
Symmetriegriinden an der Stelle 7+ 3: 











2r+1 2741 ry 2r+1 
m= > TT |e |=2> 77 85" 
hea ay Pe 
— fl — 
v=0 “w= I] ar v=0 w=0 I j 
Mey uty 


A 


r 1 \ 2 





—— 
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Man schatzt ab: 


1 1 
vl(2r+1—v)! ~ ri (v+1)!? 
‘ 2 4 3 
a ee Sa = v eitillamcn " J > 
p> 2r+1—2» * hes 2v+1 <le (r+ 2) +164 + C; 


2 IT (r+4—n)? 
ee 
r'(r+1)! 
Damit folgt 


(aut? 
Bridal < a (Wallissches Produkt). 


m,, < 2 (Ig(m +2) +1g2+C). 


5. Eng an die bisherigen Uberlegungen schlieBt sich eine Fragestellung an, 
die z.B. bei numerischer Tschebyscheff-Approximation interessiert. Der Aus- 
gangspunkt sei kurz skizziert: 

Eine stetige Funktion /(x) soll im Intervall [a, 6] durch ein Polynom vom 
Grade k angendhert werden. Dabei ist f(x) in vielen Fallen analytisch, so daB 
man sich darauf beschranken kann, ein hinreichend genaues Taylor-Polynom 
Q,,(*) durch Q,(x) anzundhern (wobei meist ” wesentlich gréBer als k ist). Ein 
dabei auftretendes Teilproblem ist die Abschatzung der polynomischen Fehler- 
kurve 

P,, (x) = 2, (*) wed Q, (x). 
Diese wird in einem Schrittverfahren an m+ 1 Aquidistanten Stellen x, = 
a+ f (6—a) abgetastet, und man berechnet |P,(x,)|<e¢; welche Schranke 
la48t sich dann (natiirlich unter der notwendigen Voraussetzung m=n) fiir 
max | F, (x)| angeben ? 

Fir m=n war das in Satz 2 beantwortet. Wichtig ist hier nun die Frage, 
wie m gewahlt werden muB, damit diese Schranke hinreichend klein wird, wie 
also diese Schranke von n und m abhiangt. Es geniigt wieder, den relativen 
Fehler zu betrachten, also 


Mm = {P, (x) ||P.(%)| <1, x, Aquidistant}, 


E(x) = ,max |F,(x)|, Mam = max E(x). 


Satz 3. E(x) ist stiickweise polynomisch, genauer: Es gibt Polynome E,,(x) 
(u=1,2,..., m) mit E(x) =E(x) fiir alle x€[x,-1, %,]- 

Beweis. & bezeichne im folgenden stets Punkte aus (x,_,, x,) (A fest). Man 
betrachte alle Systeme S von n+1 der x,, die x,_, und x, enthalten. 


Ms = {Py (x) ||Pa(xl S41 for 2,€S}, Es (x) = max |P,(x)]. 


Es gibt nur endlich viele solche S, also zu festem & ein Sy mit Es, (>) = min Es (&5). 
Nach 1. gibt es ein Polynom FEM,, mit F(é)=E,,(€), und wegen M,, ,, C Ms, 
folgt E(é)SF(&). Zum Nachweis von E(é)=F(&) braucht nur noch FEM, ,,, 
d.h. | F(x,)| <1 fiir alle w gezeigt zu werden. 
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Annahme. |F(x,)|>1 (%,45So). Es sind mehrere Falle zu unterscheiden: 
a) x, liegt zwischen zwei (benachbarten) Punkten aus So, %< %< %,. 
Wegen sign F(x,,) + signF(x,,) folgt entweder 


a) sign F(x,)=signF(x,) und p'+A 
oder 
B) sign F(x,) =sign F(x,-) und pu’ +—A—1. 


Im Falle «) ersetzt man x, durch x, und erhalt so ein abgeandertes System S,. 
Da F(x) sein Vorzeichen zwischen x, und x, nicht andert, gilt nach 1. | 














FQ =D IT| S45 |+ Fool | 
xES, vES, veES, 
EAR UVUEX U+ x 
und wegen |F(x,)|>1 
Es()=F@)> > IT |$=3| = 45.0). 
2H 
vx 


Das aber ist an der Stelle & ein Widerspruch zu E,, (&) = min Es (é,). Im Falle £) 
schlieBt man analog. 


om ~ 


b) x,, sei der erste, x,, der letze Punkt von S,; x,><,,: Falls sign F (x) = 
signF(x,,), ist a), «) anwendbar. Im Falle signF(x,) a sign F| (x,,) ist Mo A—4; 
weil sonst F(x) +1 Nullstellen hatte, nadmlich »—1 zwischen x, und x, , eine 
zwischen x,, und x, und eine links von x,_,. Hier erhalt man S, durch Fort- 
lassen von x,, und Hinzunahme von x, und gelangt wieder wie unter a) zum 
Widerspruch. 


Cc) %,<x,, wird analog zu b) behandelt. 


Das im letzten Teil des Beweises beschriebene Austauschverfahren gibt nun 
auch gleichzeitig bei speziellem » und m eine konstruktive Methode zur prakti- 
schen Bestimmung von E, (x) fiir alle uw, also zur numerischen Berechnung 
von M,, »- . 


6. Zum SchluB soll eine’ qualitative Abschatzung fiir M,, ,, gegeben, werden. 
Fiir n= 2 liegen die Verhaltnisse besonders einfach: 


1 


m= 2k-+-1: E,., ist extremal und My 9,,;=1+ ane ; 


m-- 2k: E, und £,,, sind extremal und M, ., = 1+ ey 


also AM, ,, 1+0( 12): 


Welches E,,(x) extremal ist, laBt sich allgemein nicht so leicht beantworten 
wie im Falle m-==n. Es geniigt jedoch, E,,(x) (oder E,(x)).zu untersuchen, um 
eine Abschatzung fiir M,,,,, zu erhalten; denn aus den 2m-+1 Aquidistanten 
Punkten lassen sich stets m-+-41 benachbarte so herausgreifen, daB jedes der 
2m Intervalle einmal am Rande von m Intervallen auftritt — man nutzt also 
die Beschrinktheit nur an der Hilfte aller Stiitzstellen aus. 
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Zur Abschatzung von E,,(x) wird das Intervall [—1, +1] mit den Raster- 
punkten z,= —1+y- : betrachtet. Es kommt nun darauf an, ein S zu wahlen, 
in dem z,,_3=1— 2 und z,,=1 vorkommen und fiir das E,(x) in 1— 2 S*S1 
klein (wenn auch nicht unbedingt minimal) ist. Dazu werden die Extremal- 
punkte ¢,=cos == des Tschebyscheff-Polynoms vom Grade » herangezogen. Es sei 


%q = 1; m= 1— = und fiir vy = 2,3,...,” 
x, = max {z,|z, <7,}. 
Damit die x, voneinander verschieden sind, wird 
‘ bf : nm 2 
min (t, — ¢,.,) = 1— cos —o 2 sin? Po = a 


vorausgesetzt. Mit n=>3 hat man 





is = sin? = 9 
5 8 : om 
_ 2n = 4n? 7 4n?’ 
36 
also 
m= $n’. 
Es ist 
n n Sanit 
En() SEs(é)= 2-4, mit 4,= JT} "|. 








v=0 pw=0 
uty 


Setzt man =1—7 (o<ns 2 ) dann folgt 


n 


Ag=(1— 7") II(1- eS 


2 
2 


1 n 

m m 
so n [] op eens 
' SS 


Weiter sei bezeichnet: = n=u (0OSus), 


200 1 2 1 = 


o t= ay 
Ag+ Ay <(1—1u)-e-* wet < o¥Bo[4 + u(e%— 1)] =A (u). 
fi (u) = e~*[e% — 1 — By — u By(e* — 1) | 


hat als einzige Nullstelle 
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die Rechnung zeigt weiter 


fi’ (uc) = — Bo(e*— 1) e~ “<0, 
/,(u) hat also in uw, sein Maximum und 
, 
Ay + An < f(t) =! . emt 
0 
A —1 
fo(t) = te’ 
B, — = 
ist monoton wachsend fiir ¢>1; da B,>Bg, gilt —— > —— >4; 
0 4 


ook. : 
fina ist also nach oben abzuschatzen: 





eB: —1 eB: --1 B,—B, eB: —1 
= - 5 
By Bp (t+ 5?) Sg + BD 





fs(B,) = “i (1+ B,) 


ist ebenfalls monoton wachsend, so daB nun B, nach oben abzuschatzen ist. 
Zunichst ein 


Hilfssatz. és 
2 _ 
$32,<3" 
i- ty nM 
Bewets. 
n n y 
+ 2 = 3 : = — ae du 
I (en 
2 1—cos 2 sin? ( sin? sin? ( ) 
n/2 d 
“ie 1 2n a, Tl am .c a 
ve . > a | sintu P 7 ? t 
sin nj2 sin 
nt cos ” 
n2 n2 2n n 
ous ; bi + Pt. 
9 s .. &# 
sin? — sin 
n 
Zu untersuchen bleibt 
72 cos t ss 
a | Satie el ee ae 
g(t sin? ¢ ve sin ¢ m 0<'e »” 
dort gilt 
’ 2cost 2 
g(t) = 5; (sin*t — 2y<0 
und somit 


g (4) < lim g(t) =3. 





TISs SST 





TSF SST 
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Nunmehr folgt wegen x, <¢, (u= 2) 


ee fs aS — 1-4 2 by < 
m 2 7 2 - 2 m if, ” 
2 1-— —x, 241-—-4t, 1—-—-4, 
m m m 
a... aye eae roeeees i fir n=}3; 
2 1 4 n?* 
Tah. ee | 8 ee 
m sin? - 
> 
nz mm n2 
bite 4 n® = fs(*-) 
27 m 


Zusammenfassend hat sich 


Ay+ 4,< f. (ts (fs - )) 
ergeben, und die asymptotische Rechnung zeigt (far = — 4} 


Ag+ 4,=1+0(".), 
denn 
| 


A(i+i)=(1+Ae MH = (144 (1— or +++) =1+0(). 


Abschatzung der A, fiir y= 2, 3,..., : 
GemaB der Festlegung der 4, gilt fiir », ~=2 











|,-t,|-2 S|x,-%|S|]4-4) +=. 
Damit folgt 
ee) cre ee 
ss a "8 (1—1,) (1 ~ —4) (1 ? = —t,) ors Ity,—tul— ron 
a) n(5, —9) 5 sat 
“ / 2 \_ fT. 1 = 2/m \_ 
"7 IT (1+ m —4,) a IT ( — ty) ima IT (1+ 7-4,)? 
* ‘Mm\\ on TT ine (M2) — oe un). 
FG — oi => LT sim (55) =? IT sin (35) 
qe = SGM (ne): 
i—%, a 
2 sin* —— 
n 
2/m_ i _ 
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) I] —z = IT lz = } I a os ) 





2 
on — =2 —f.1— — y FR! p=8 
(1 t,) (1 m t,) wat |t, t,| m wee uty |t, —t,| 
yn: [[\e—~tl=277 sin (7H —* 
p=0 u=0 ™ > 
“utr B+ 














1 ae sin (3 = 
2n 
es — 4) 
seat pea =I a OER An\ ° be 
IT sia( 3) F 
Die Zusammenfassung von a) bis c) ergibt 
2 sf 2 : 1 
em Fe ee. ele 
An< 5? I( zim ) 
142-4, w=2 \1 — 
MY |t,—t| 








-ii( - man) II (' 7a (3) 


(7 x n | 

sin 

2 2 “Ym } 

= ( wr wam(22)) < IT(' — aH) arane S laeet 
2n 2 m 

Bei den letzen Abschatzungen war iiber die friihere Einschrankung hinausgehend 

m> 4n* vorauszusetzen. 


Nach dem Hilfssatz laBt sich schlieBlich auch die Summation iiber v durch- 


fiihren: 
queEnensnITEEEESERERTEE <= a 3 nt 
2 1+ — “te EE 
und damit 
an mn : 
n 3 nn? Vv- Vv 
2 =a: /2 /m a(t’ 
Di 4e< Fat te : ~ | =0(S)- 


2 sin( 2 Ti) 
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Als qualitatives Ergebnis hat man zusammenfassend Tabelle 2 
fir My, om k | Mnaent< 
Satz 4. Fiir m=cn? mit festem c >} gilt 
2 1,8211 
n4 3 1,1749 
My,2m=1+0(%,). 4 1,0745 
5 1,0414 
Abgesehen von der Méglichkeit, die M,,,, direkt zu 6 1,0264 
berechnen, liefern aber auch schon die vorstehenden 20 1,00186 
Abschatzungen brauchbare Schranken (vgl. Tabelle2). 200 1,00001 73 
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Two new algorithms for rational approximation 
By 
E. W. CHENEY* and H. L. LozeB** 


1. Introduction. A classical problem in approximation theory is to select 
optimum coefficients for the approximation of a given function, /, by a rational 
function: 

n . 
2d oj %! 
j=0 
f(x) & —— 
> d; x! 
j=0 


We understand this to mean that c; and d; are to be chosen so as to induce a 
minimum value in the function 4 which measures the deviation of f from its 
approximation: 


in ~~ Lo xi 
A(c, d) sup f (x) Sax |" 
This problem is encompassed by the more general problem of obtaining a minimum 
value for a function of the type 
At, c)+a; 
A(c) =su (At, c) +a 
() = SUP (BF, 0) +b, 
where A’, B’, and c are n-tuples, and ( , ) denotes an ordinary innerproduct. 
In the case where f is continuous it is natural to require that >) d;x’ be of one 
sign in the range of x considered. Thus in the more general problem, con- 
sideration is restricted to vectors c in the domain 


D={c€E,: (B’,c)+6;>0, all ¢}. 


Algorithms for this general problem already exist in [1, 2, 3]. Methods that 
are especially efficient for the approximation of smooth functions by rational 
functions have been given recently by MAEHLY. See [7]. All known algorithms 
are described briefly in [4]. 
In the remainder of this paper it is assumed that the range of the index 7 
is a finite set. 
2. Lemma. A local minimum of 4 on D is necessarily a global minimum. 
Proof. Suppose, if possible, that c* is a non-global local minimum of 4 on D. 
Then there is a point c® of D satisfying A(c°)< A(c*). Define the residual functions 
i;.\ — (At, c)+a; 
RC) = (Bi. o£, 


* Space Technology Laboratories, Los Angeles, California. 
** System Development Corporation, Santa Monica, California. 
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and select i so that R‘(c*) = A(c*) and so that R’ is non-decreasing in the direction 
of c°. Since R‘ is continuously differentiable in -: oo is by RoLve’s theorem 


a point Ac*+ (1—A)c®, with 0<A<1, at which re =(0. 
Carrying out the differentiation, we find that 


aRi __ {(B, c8) +bj] (A¥, o# —c2) —[(4¥, c8) +a] (Bi, #08) 
“ah [(Bi, Ac*+(1—A) 0%) +8; ]? 


which shows that if dR*/d4 is zero anywhere on the segment joining c* and c®, 
then it is zero throughout this segment. Hence A(c°) > R*(c°) = R’ (c*) = A(c*). 

3. Example. If A is not restricted to the domain D, the above lemma may 
fail. For example, put c=(c,, c.) and define 


A(c) = max {- ae _ agin } ; 





tes 
There are two local minima, 4(1, 0)=1 and A(1, —2)=—1. 

4. Theorem. A necessary and sufficient condition that a certain point c* 
minimize the function A in D is that the following system of linear inequalities 
be inconsistent: ; 

(A’— pw B',2z)<0 (¢€ I) 
where «= A(c*) and I= {i: R*(c*) =p}. 

Proof. Suppose that c* minimizes 4 on D. For sufficiently small z, then 
A(c*+ z)=A(c*). Thus for some 7€ I, 

(4}, c*+z)+a; (As, c*)+a; 


(Bi, c*+2)+b; = (Bi, c*) +); ° 





This inequality reduces to the following 
(A'—pB',2)=0, 


so that the system in the lemma must be inconsistent. 

Now suppose the system in the lemma to be inconsistent. Then for every z, 
there is an 1€J for which (A‘, z)=y(B',z). Adding the terms (A’‘, c*)+a,= 
pu [(B‘, c*) +, results in (A‘,c* +2) +a,>[(B’,c*+2)+0,], whence A(c*+2z)> yu. 


5. The differential correction algorithm. Let A; and B; (i=1, ..., m) denote 
real-valued functions on an arbitrary set D, it being assumed that 


0<aSB,(c) SB 
for all c€ D and all 7. Define 


At the k" step of this algorithm c*~! is on hand from the previous step. Define 
an auxiliary function 
A; (c)— A(c#-2) + Bi(c) 


6, (c) = max = see. near 


Then select c* to minimize 6, on D. (We assume that this is always possible. 
In the important case when A; and B,; are linear functions plus constants, and 
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D is a polyhedral.set, the minimization of 6, can be accomplished by linear 
programming.) ' 

6. Effectiveness of the algorithm. In general the vectors c* do not converge. 
However, they form a minimizing sequence for 4. We shall show, in fact, that 
the convergence is monotone: 











hy. ; ¢ 
A(c )\ inf A(c). 
First we observe that since c* minimizes 6,, 
A; (ch- 

6, (c*) <6, (~ ') = max 3 =1) — A(ct- 1) =0. (1) 

We also have for any c, 
A; B; 
OP) (0) = max | BiG — A ety (2) 


Putting c=c* in (2) and using-(1) yields 

dg(ch) =F [acc — a()). 
Taking c in (2) to be any point for which Aes (c*-1), we have 

6, (c) <3 3 (Ale) — A(c*~")}. 
Also 

A(c*) S © 6,(c*) + A(*™). (3) 
From this, writing 4*= inf A(c), we obtain 

b4(0) 5% [A*— Ae]... (4) 
Replacing 4, (c*) in (3) by its upper bound from (4) gives us 

A(t) s % (4 — A(t] + A(-). (5) 

Thus at the k‘ step of the algorithm, A is decreased by an amount at least 


pi Ae — Al). 


By (1) and (3), the sequence A(c*) is monotone decreasing. If lim/A(c*)=— cx, 
then c* is clearly a minimizing sequence. In the other case, the same conclusion 
may be drawn from (5). Note that an uncertainty interval can be given for A* 
at each step: 


A(c*) + Fe B™ [A(c**3) — A(c))} < A*S Ac). 


7. A descent algorithm. Again define R‘(c)= [(A‘, c) +.4,]/[(B*, c) +8], 
A(c)=max;|R*(c)|, and .D={c: (B’, c)+,>0}. Given any point c°€D, the 
present method determines a direction from c® in which 4 decreases, if this is 
possible. If this is not possible, then in accordance with 2, c® is a solution. Set 
p=A(c) and I= {i: |R'(c*)|=p}. To decrease A it is necessary and sufficient 
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to decrease |R*(c°)| for i€ J. We thus seek a vector z having the property that 
at A=0, 
4 R(@+Aa|S—1 (EI). 


This requirement is equivalent to the following system of linear inequalities for z: 
(0; A’ — p BY, 2) <— (Bi) —b, (GE) 


in which we have written o; for sgn R‘(c°). The vector z of minimum magnitude 
which satisfies this system points along the direction of steepest descent from c®. 
In practice we recommend a slightly different criterion, viz., that z shall satisfy 
the above system with as many equalities as possible. By a theorem of K. FAn [5], 
if the rank of the vectors {o;A‘— B’: i€ I} is 7, then a solution z exists inducing 
at least r equalities. Obtaining such a vector z can be accomplished by the 
methods of [6]. Thereafter, the succeeding point, c!, is to be taken so as to 
minimize A on the ray c®°+Az. This may be done as follows. Let A, be any 
convenient positive number such that ¢°+/,z€D and A(c°+A,z)>A(c*). Then 
the value of A which we seek lies between A,=0 and A,. We investigate dA/dd 
at the point A;=$(4,+ A,). If this is positive, the desired 4 lies in [A,, Ag]; other- 
wise in [A,, A,]. This process gives one bit of information per step and is very - 
fast since most of the work of the first step may be utilized in the succeeding steps. 
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The radius of univalence of the function 
exp 2” f exp (—)dt 
ae 
YUDELL L. LUKE 


In this note we develop two sets of polynomials {z,,(y)} such that if yp, is 
the smallest zero of z,(y), then lim y>,— 90, the radius of univalence of the 
function sini 

E(z) =e" f e~* dt. (1) 
0 
The convergence is very rapid, for if m= 4, yo4 is correct to about eight decimals. 
The results are based on the Padé approximates for 








F(z) =e-* f edt = —iE(iz) (2) 
0 
previously discussed by the author in [1]. There we showed that 
pm od ) 2 2) — Fn (z*) 
F(z) By (z 2) + Z R, (2 ) , R, (z ) B, (2?) ’ (3) 
where a P 
* k yn—k ad” 7) (n+ 3/2) 
gA—ks y- (3a, : (4) 


k=0 r=k 

By() = (84 3)2)aF(— 0; — 20-2) = 2 Fy(— mn 3/225—29), (5) 

—)*+1 ale se nal 
(3/2)en4. 


Here we haveemployed the usual hypergeometric notation and (a), = I"(a+-)/I"(a). 
For later use we note that both A, (z) and B,(z) satisfy the same recurrence 


formula and 
(n+ 3) (2) 
(2n +) (2n+%) Anta 7) 


_ i a. Te 
ae {i+ ‘2(2n +4) (2m rp}4 n (2) + (2 + 4) (2m + 2) A,,—1(2). 


F(z) =‘ F, (n + 3/2; 2m + 5/2; 2). (6) 








For some other functional relationships see [7]. Also 








(m + 3/2)n(2”)si¢ .—s 1 
Bula) =e elt +O(Z), (8) 
and 
F, (2) = {ean e-*8(/2)**** [1 +0 (1) (9) 
¥j (3/2)n n/|° 








The radius of univalence of the function yard 





Thus 
Eo (—)#+! mils e—* (z/2)2"+1 Ps 
Relea (tt (al (10) 
so that for z fixed, 
lim R,,(z) = 0. (11) 


Let z=x+iy, E(z)=u(x, y)+iv(x, y). On the imaginary axis, z=7y, 
u(x, y)=0 and Kreyszic and Topp [2] have shown that v(0, y)=F(y) has a 
maximum at solution y= g of the equation 

2y F(y) =1. (12) 
Put y?=#@ and let 
G(d) =G, (8) + 26R,(8); G6,(a)= , 
C,, (8) = 20 A, (8) — B, (8). 


If yp, is the smallest y such that C,,(y%,,) =0, then 
HM Yon = @- (14) 





The polynomials C,,(#) are easily generated using (7). Using the notation of (3), 
we get another ann for (2) if 
— (7) (n+1/2), 


of pre Ss vin (15) 


k= 
n+ 1/2) 4144 (— ", — 2 + 1/2; 2) = 2" .Fo(—n, n+ 1/2; — 27). (16) 





B,, (2) 


Here (—)"*n! e722" 








F,(2) = A(t + 1/2; 20 + 3/25 2) (17) 
and 
= (— )" ql2 e —8 ( (2/2) )s" 
RO) = Gata Ut Ce) (18) 


For further details, see the reference cited. Again A,(z) and B,(z) satisfy the 
same recurrence formula and 


(n + 1/2) 











@n+ 2nth An) (19) 
Zz n z® 
a — -2(2n—4) (2m ry) An) + Gai ® (ant h 402): 
The notation (13) and (14) carry over Table 
and so we have a second sequence of 
" Yon 


polynomials whose smallest zeros ap- 
proach 9. 








oe . 1 0.94213 9886 0.930604859 

The adjoining Table gives the com- 2 924004932 925472580 
puted values of y,,, for n=1(1)4. The 3 924139442 .9241 30626 
entries in the first column derive from 4 924138871 .92413 8889 


the iepresentations (4), (5) and (13), 
while those in the second column derive from (15), (16) and (13). The true 


value of o to ten decimals is 0.92413 88730. 
The radius of univalence of the error function erf z= f e—" dt has also been 


studied by Kreyszic and Topp [3]. The above pulgnennials can again be uset. 
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for this case, although the representations are not as simple as for (1). The 
above source gives a rather extensive set of references on the quantitative 
behavior of erf z. To this list should be added [1] and [4]; the latter gives a 
representation for erf z in series of Bessel functions. 
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Faktorenzerlegung Mersennescher Zahlen 
mittels programmgesteuerter Rechengerite 
Von 
E. KARST 


Es scheint, daB sich seit SEELHOFFs Zeiten kein Deutscher mehr erfolgreich 
mit Zahlen der Form 2?—1, sog. Mersenneschen Zahlen, beschaftigt hat. Und 
das ist immerhin 75 Jahre her [1]. Erst nach dem zweiten Weltkrieg ist dieses 
Gebiet ein Priiffeld fiir programmgesteuerte Rechengerate geworden, und der 
Verfasser, der hiermit zum ersten Mal an die 100 neue Primfaktoren. P der 
Kongruenz 2? =1 (mod P) fiir verschiedene Bereiche von # 2 10/8 und P 2 101° 
ver6ffentlicht, méchte erlautern, wie er dies mit einer Maschine mittlerer Ge- 
schwindigkeit und Speicherfahigkeit, einem Magnettrommelrechner vom Typ 
IBM 650, trotz scharfer Konkurrenz der schnellen und groBen Maschinen der 
Universitat von Kalifornien und des Schwedischen Rechenzentrums in Stockholm, 
durch Beseitigung unnétiger Rechenvorgange erreichte. . 


Folgende Lehrsatze und Algorithmen wurden verwendet : 


I. Wenn ~=3 (mod 4) und 2#+1 eine) Primzahl P, dann ist P ein Faktor 
von 2?—1. Beispiele: 23 teilt 24 —1, 47 teilt 28—1, 33553799 teilt 216776809 — 4, 
[Beweis: Es ist ratsam, sich die Faktorenzerlegung von 2°"*?—1 als Produkt 
von Faktoren der Form 8g —1 und 8q¢+-1 vorzustellen, wobei die Multiplikation 
aller Minus- und Pluszeichen fiir ein bestimmtes » am Ende immer ein Minus- 
zeichen ergeben muB. Beispiele: 2* —1=7 - 1=(8¢ —1)(8¢+1)=(—)(+)=(-), 
Be mje P94 150 (Bg — 1) (6g — 1) (6g — 1) = {—) (—)(+) = (—), 2-1 
7? - 127 - 337=(8q—1)*(8q—1) (89+ 1) =(—)*(—),(+) =(—). Auf diese 
Weise ist‘ es auch méglich, den oft unbekannten Endfaktor von 2?—1 kurz 
und treffend darzustellen, wovon in den Beispielen zu II und III Gebrauch 
gemacht wird. Vor allem aber wird dann deutlich, daB P=2-+1 nichts anderes 
als eine Primzahl der Form 8q¢—1 ist und daB Lehrsatz I mit der bekannten 
Feststellung EuLERs [2] identisch ist, die spaiter von Lucas [3] mittels FER- 
MATs kleinem Theorem bewiesen wurde: 2°¢-? — 4=(2*?-1—1) (249-*+1) =0 
(mod 8q —1).] 

II. Wenn ~=3 (mod 4), sind alle Faktoren P, auBer P=2+1, von der 
Form 8mp+1 oder (8m+2)p+414. Beispiele: 8-1 -11+1=—89 in 24 —1= 23 - 89, 
(8 - 5+ 2) 16776659 + 1 = 704619679 und (8 - 74+ 2) 16776659+ 1=9965335447 
in 216776659 __ 4 — 704619679 - 9965335447 (8g —1). 

III. Wenn ~=1 (mod 4), sind alle Faktoren P von der Form 8mp+1 
oder (8m—2)p+41. Beispiele: 8-14 -29+1=233, (8-5 —2)29+1=1103 und 
8-9+-29+1=2089 in 2%—1=233 - 1103 - 2089, (8 - 1—2)31509617+1= 
189057703 in 231509617 _ 4 — 189057703 (8q+1). [Beweis von IT und III: Obwohl 
EvuLER diese Eigenschaften gekannt zu haben scheint, wurden sie erst von 
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WoopaALt [4] genau formuliert und von ARCHIBALD ausdriicklich wiedergegeben : 
,,Die einzig méglichen Teiler einer Mersenneschen Zahl haben fiir P=83 die 
Formen 664n+1 und 664n+167, fiir ~=257 die Formen 2056”+1 und 
2056”+ 1543.‘ Es ist leicht zu erkennen, daB 664n+1=8mp-+1, 664n+ 167= 
(8m+2)p+1, 2056n+1=8mp+1 und 2056+ 1543 = (8m — 2)p+1.] 

IV. Alle Faktoren P fiir ein bestimmtes # sind quadratfrei. Beweis: 
2"? (e—Dik __ 4 ist teilbar durch #? fiir alle m und # sowie einige k, die p —1 teilen, 
und jedes #? ist in diesem Ausdruck enthalten. Da aber »p(p — 1)/k zusammen- 
gesetzt ist, muB 2?—41 quadratfrei sein. Beispiele: p=3 und k=1, P=5 und 
k=1, p=7 und k=2. Auch die Verallgemeinerung ,,Das Produkt aller Fak- 
toren P fiir alle ~ ist quadratfrei‘‘, obwohl noch nicht bewiesen, scheint wahr 
zu sein, da unter den etwa 1000 bisher gefundenen P keine 2 die gleichen sind. 

V. Wenn 2? —1 -oder (2? —1)/P=a?—b?, wo bZa, dann a=1 (mod #) und 
b=0 (mod p). Das Rechenverfahren, die Faktoren (a+ 5) und (a—6d) zu finden 
(wenn sie relativ nahe zueinander liegen) ist bekannt als FERMATs Methode der 
Faktorenzerlegung mittels der Differenz zweier Quadrate [5]. Beispiele: 
QU — 4 = 23 - 89 = 56? — 332, 56:11=5R1, 33:11=3RO0. 2 —1 = 233-1103 - 2089 
= 1295447 — 1274552 = 243920? — 2428172 = 1152200? — 11519672, 129544:29 = 
4467R1, 127455:29 = 4395RO, 243920:29 = 8411R1, 242817:29 = 8373 RO, 
1152200: 29 = 39731. R14 und 1151967:29 = 39723 RO. (22°—1)/233 = 1103 - 2089 
= 1596? — 493”, 1596:29 = 55R1, 493:29 = 17RO. | 

VI. Quadrate enden in den folgenden 22 Kombinationen von letzten 2 Zif- 
fern: 00, 01, 04, 09, 16, 21, 24, 25, 29, 36, 41, 44, 49, 56, 61, 64, 69, 76, 81, 84, 
89 und 96. 

VII. 2?—1 ist dann und nur dann eine Primzahl, wenn es das (f—1)-te 
Glied der Folge 4, 14, 194, 37634, ..., teilt, in der jedes Glied das Quadrat 
minus 2 des vorhergehenden Gliedes ist (Algorithmus von Lucas). Beispiele: 
23 1=7, und 7 teilt 14, das zweite Glied in der Folge. Daher ist 7 eine Prim- 
zahl. 24—1=15, und 15 teilt nicht 194, das dritte Glied in der Folge. Daher 
ist 15 keine Primzahl. 25—1=31, und 31 teilt 37634, das vierte Glied in der 
Folge. Daher ist 31 eine Primzahl. Bei gréBeren # quadriert man nur die Reste R, 
wie im Beispiel zu VIII gezeigt werden wird. 


219 — 4 = 524287 


4:524287 = OR4 
16—2= 14:524287 = OoR14 
196 —2= 194:524287 = 0 R194 
37636 —2= 37634 :524287 = 0 R 37634 


1416317956 —2=  1416317954:524287= 2701 R 218767 
47859000289 —2= 47859000287:524287 = 91283 R 510066 
260167324356 — 2 = 260167324354: 524287 = 496230 R 386344 
149261686336 — 2 = 149261686334: 524287 = 284694 R 323156 
104429800336 — 2 = 104429800334: 524287 = 199184 R 218526 
47753612676 —2= 47753612674:524287 = 91082. R 504140 
254157139600 — 2 = 254157139598: 524287 = 484767 R 103469 
10705833961 —2= 10705833959:524287 = 20419 R 417706 
174478302436 — 2 = 174478302434 : 524287 = 332791 R 307417 
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94505211889 —2= 94505211887:524287 = 180254 R 382989 
1466805 74121 — 2 = 146680574119: 524287 = 279771 R 275842 
76088808964 —2= 76088808962: 524287 = 145128 R 85226 

7263471076 —2= 7263471074:524287 = 13853 R 523263 
273804167169 — 2 = 273804167167: 524287 = 522241 RO 


(Fiir die Ausarbeitung dieses Beispiels ist der Verfasser seinem Assistent GORTLER 
sehr zu Dank verpflichtet.) 


Mit dieser Methode fand der Franzose EpuARD Lucas im Jahre 1876 die 
damals gréBte Primzahl, 2?77—1. Erst im Januar 1953 fand der Amerikaner 
RAPHAEL M. RosInson [6] mit dem SWAC-Gerat, das zwei 36stellige ‘duale 
Zahlen im 64millionsten Teil einer Sekunde zu addieren vermag, zwei weitere 
Mersennesche Primzahlen, 25%!—1 und 267 —4, und mit derselben Routine im 
Juni 1953 die Primzahl 2!2°—1 und abschlieBend im Oktober 1953 die Prim- 
zahlen 2°°%—4 und 27%!—4. Am 8. September 1957 fand dann der Schwede 
Hans RIESEL [7] mit dem 4ahnlich schnellen BESK-Gerat die bis jetzt gréBte 
Mersennesche Primzahl, 23227 — 1. 

VIII. P ist dann und nur dann cin Faktor von 2?—1, wenn die Anfangs- 
kongruenz 2” = Aji, (mod P) (wobei der méglichst kleine Wert A,,;, auch negativ 
'sein kann) durch Addieren der Exponenten auf der linken Seite und durch 
Multiplizieren der Reste R auf der rechten Seite schlieBlich die Endkongruenz 
2? =1 (mod P) erreicht (Algorithmus von GAvss). Beispiel: Es soll bewiesen 
werden, daB 2806537 ein Faktor von 2°87 —1 ist. Die beste Anfangskongruenz 
diirfte 2?*=— 31003 (mod 2806537),sein, weil 273+ 31003 =3 - 2806537. Nun 
ergibt aber (— 31003) (— 31003) =961186009 und dieses geteilt durch 2806537 
den Wert 342 R 1350355. Folglich. lautet‘ die zweite Kongruenz 24 = 1350355, 
die dritte 2°? = 1019459 und die vierte 2'*4 = — 483400, alle (mod 2806537). Die 
nachste Kongruenz wiirde auf der linken Seite 2° ergeben, und das iiberschreitet 
bereits 2°37. Daher wird auf eine kleinere, schon bekannte Kongruenz zuriick- 
gegriffen, etwa 24=— 41456182 (das Komplement zu 2*= 1350355, weil 
1456182+ 1350355 =2806537). Es liefert (— 483400) (— 1456182)/2806537 den 
Rest 2414219. Folglich lautet die fiinfte Kongruenz 27°°= 2414219. Dicse ist 
bequem mit 2°? =1019459 zu multiplizieren, und man erhalt die sechste Kon- 
gruenz 2°2? = 1858834. Nun ist nur noch 2! = 32768 erforderlich, und die siebente 
und letzte Kongruenz ergibt tatsachlich 2°°7=1 (mod 2806537), weil 1858834- 
32768/2806537 den Rest 1 hat. Folglich ist 2806537 ein Faktor von 2°37 —1. 

Die Faktorenzerlegung Mersennescher Zahlen umfaBt drei Teilgebiete: 
1. Kleinere Pr;-1faktoren (P72 10") von 2?—1 zu finden, 2. Mersennesche Prim- 
zahlen zu entdecken und 3. gréBere Faktoren (Endfaktoren) auf ihren zusammen- 
gesetzten oder Primzahlcharakter zu untersuchen. 

Teilgebiet 1. kann von groBen Rechengeraten in einem einzigen Programm- 
ablauf bewdltigt werden, jedenfalls fiir P2710’ und 210‘, wie RIESEL [7] mit 
dem BESK-Gerat und JOHN L. SELFRIDGE [8] mit einem IBM 704-Gerat erfolg- 
reich gezeigt haben. Fiir mittlere Maschinen ist es jedoch vorteilhafter, mittels 
zwei Veranderlicher, einem bestimmten # und einer jeweils festen unteren 
Grenze G,, jeden Programmablauf einzeln zu steuern. 








82 E. Karst: 


Der klassische Bereich von 1. ist offenbar #2108. CUNNINGHAM [9] und 
spater LEHMER [10] erforschen sogar nur ~ 2 500, aber KRAITCHIK [JI] erwahnt 
schon kleinere Faktoren bis £=967. Am bequemsten ist es, Bereiche von # 
zwischen aufeinanderfolgenden Potenzen von 10 zu_untersuchen. 


10° 2p 210: 
Dieses Intervall war schon im Altertum vollkommen erforscht. 


10! 2p 2102: 
Viele groBartige Entdeckungen sind in diesem Bereich gemacht worden, z.B. 
der erste Faktor (193707721, CoLE) von 2°? —1, die Primalitat des Endfaktors 
(57912614113275649087721, FERRIER bei Hand!) von 28*—1, aber seit’ dem 
Beweis durch RoBINsON [6], daB der Endfaktor von 2°’—1 eine Primzahl ist, 
kann auch hier nichts mehr erforscht werden. 
10? Zp Z 103: 

Augenblicklich das am intensivsten bearbeitete Feld. JOHN BRILLHART und 
GERALD D. JOHNSON .vom Rechenzentrum der Universitat von Kalifornien werden — 
hier in Kiirze an die 50 neue Primfaktoren PZ 2*° veréffentlichen. Einige sind 
dem Verfasser bereits bekannt, zumal er sie schon friiher entdeckte. Seit den 
Publikationen von LEHMER [10], Rosinson [6] und RIEsEL [7] wurden folgende 
neue P gefunden: der erste Faktor (13821503, BRILLHART- JOHNSON) von 21% — 4, 
der erste Faktor (22000409, BRILLHART- JOHNSON) von 2%! —1, der erste Faktor 
(13822297, BRILLHART-JOHNSON) von 278—4, der erste Faktor (14608903, 
BRILLHART- JOHNSON) von 2°°7— 4, der zweite Faktor (2806537, KARsT) von 
23874, der sechste Faktor (5877983, Karst) von 2%7—414, der zweite Faktor 
(3407681, KARST) von 28 —1, der zweite Faktor von 2! —1 (7707719, Karst), 
der erste Faktor' (12619129, Karst) von 25° — 14, der. zweite Faktor (21993703, 
Karst) von 255? — 4, der erste und zweite Faktor (15854617, KARST, 55470673, 
BRILLHART- JOHNSON) von 25%—4, der zweite Faktor (2926783, KARST) von 
2587 4 und der zweite Faktor (9461521, Karst) von 277% — 1. 


10°? 2p 2108: 

Fiir #23300 nach Mersenneschen Primzahlen abgesucht. Seit den Ver- 
6ffentlichungen von RIESEL [7] und SELFRIDGE [8] folgende neue P: der zweite 
Faktor von 2!%!—4 (435502649, BRILLHART- JOHNSON) und alle weiteren vom 
Verfasser, der zweite Faktor 778847 von 22%5t—1, der zweite Faktor 145777 
von 29°87 — 4, der zweite Faktor 5565031 von 2° — 1, der erste Faktor 22063999 
von 23974, der erste Faktor 15914447 von 29°%%—41, der zweite 230807 und 
dritte 14222641 Faktor von 2°%—1, der zweite Faktor 31509617 von 2°71 —1, 
der erste Faktor von 23167 — 1, 12237289, der zweite Faktor 127241 von 28! — 4, 
der erste Faktor 40895857 von 2%! — 1, der erste Faktor 46452841 von 23253 — 4, 
der zweite Faktor 4032167 von 2525? — 1, der zweite Faktor 19873177 von 292 — 1, 
der zweite 665801, dritte 1005359 und vierte 26225863 von 239°°—1, der zweite 
Faktor 1519169 von 235—4, der aweite 5952823 und dritte 12688369 von 
23483 — 4, 


10°27 p 210°: 
Noch unerforschtes Gebiet. 
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10° 2 p Z 108: 
Seit den Verdéffentlichungen von Robinson [6] folgende neue P (alle vom 
Verfasser): der zweite 4193369 und dritte 76528967 Faktor von 2541714, der 
erste Faktor 19919183 von 25418 — 4, der erste Faktor 116372623 von 2524201 4, 


der erste Faktor 20968841 von. 25242214 und der erste Faktor 1747872839 von 
2524257 __ 4 


10° 2 p 2107: 
Folgende neue P (alle vom Verfasser): der erste Faktor 16011257 von 270014074, 
der erste Faktor 4630342153 von 2883014, der erste Faktor 335537561 von 
28see439 4, der erste Faktor 2935965551. von 289884784, der erste Faktor 
67108313 von 289885394, der erste 1342167521 und zweite 1962919999 von 
28388547 4 ynd der erste 2768233711 Faktor von 28388587 — 4, 


1072p 2108: 
Folgende neue P (alle vom Verfasser): der erste Faktor 6273786047 von 
216774829 __ 4, der erste Faktor 1509741631 von 216774907__4, der erste Faktor 
771646367 von 216774921 __4, der erste Faktor 33549863 von 216774931 4, der erste 
100650559, zweite 1845260231 und dritte Faktor 7381040921 von 216775093 __ 4 | 
der erste Faktor 805209649 von 2167752014, der erste Faktor 1040069903 von 
- 21677681 4, der erste Faktor 234854999 von 2167753574, der erste 1878840209 
und zweite Faktor 8052172321 von 2167753594, der erste Faktor 33550799 von 
216775399 4, der erste Faktor 33550967 von 216775483 __ 4, der erste 100652983 und 
zweite Faktor 2684079521 von 2167754974, der erste Faktor 5334643663 von 
216775609 __4 der erste Faktor 436167863 von 216775674, der erste Faktor 
100656463 von 216776077__4, der erste Faktor 100656607 von 2167761014, der 
erste Faktor 234865583 von 216776184, der erste Faktor 134209337 von 
216776167 4, der erste Faktor 268419377 von 2167762114, der erste Faktor 
100657303 von 216776217 4, der erste 2013165481 und zweite Faktor 3892119929 
von 216776379 __4, der erste Faktor 402635257 von 2167764694, der erste Faktor 
503294431 von 216776481 __4, der erste Faktor 33552983 von 216776491 _ 4, der erste 
704619679 und zweite Faktor 9965335447 von 2167766594, der erste Faktor 
167766791 von 216776679__4 der erste Faktor 805281073 von 216776689__4, der 
erste Faktor 134213753 von 21776719 _ 4, der erste Faktor 33553463 von 216776731 _ 4, 
der erste Faktor 33553679 von 2367768894, der erste Faktor 33553799 von 
216776899 4 der erste Faktor 308005727 von 2720004094, der erste Faktor 
189057703 von 2%1509617__4 und der erste Faktor 2147466017 von 287108313 _ 4, 


108° 2p 210°: 

Noch unerforschtes Gebiet. 

Keiner der hier genannten Primfaktoren hat mehr als 10 Stellen, und bis 
jetzt ist noch kein Primfaktor P gréBer als 10!° (auBer Endfaktoren) gefunden 
worden. Man kénnte daher nach einem gr6éBten ersten P oder einem gréBten 
zweiten P usw. fragen, man kénnte, wie im Sport, Rekorde mit der Stellung 
und GréBe der P aufstellen und sich an der Dauer ihres Bestehens erfreuen. 
Es diirfte nicht schwer sein, ein gréBtes erstes P zu finden, denn es wird die 
Form 2+1 haben. Ein gréBtes zweites P, wie etwa 9965335447 von 216776659 — 4, 
das der Verfasser zufallig fand, wird aber fiir langere Zeit ein Rekord bleiben. 
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Nun zum Bau der Routine zu 1., die der Verfasser entwickelte. Zunichst 
wurden alle P=2+41 fiir einen bestimmten Bereich von # in 2?—1 mittels 
einer guten Primzahlliste bei Hand herausgesucht. Dies lieB fiir die Maschine 
alle P in den beiden Formen 8mp+1 und (8m +2) +41 iibrig, wie in II und III 
gezeigt wurde. Bei vorgegebenem # und G,=1 entschied das Rechengerat zu- 
nachst, ob =3 oder 1 (mod 4) war, und entwickelte dann 1600 Glieder der 
arithmetischen Reihe 8mf+1, da 400 Trommelfelder fiir Befehle und Daten 
gebraucht wurden. Jedes Glied wurde dann durch alle Primzahlen von 3 bis 97 
geteilt. Wenn keine dieser Divisionen den Rest Null ergab, wurde das Glied 
wieder zurtickgespeichert -(das erste in Trommelfeld 0400). Wenn aber bei irgend- 
einer Division durch 3 bis 97 der Rest Null erschien, wurde dieses Glied iiber- 
gangen und erst wieder eins mit keinem Rest Null ins nachste Trommelfeld 
(0401) zuriickgespeichert. Auf diese Weise werden zumindest 4 Bander der 
Trommel (1800—1999) frei fiir weitere Daten. 1800ff. wird fiir fortlaufende 
Potenzen von 2, beginnend mit 2°, verwendet, 1900ff. fiir die bei der Division 
durch P oder eine zusammengesetzte Zahl der Form 8mp+1, deren Teiler 
gr6Ber als 100 sind, entstandenen Reste, wie in VIII gezeigt wurde. Allerdings 
aibeitet die Maschine nur mit positiven Kongrvenzen und beginnt auch nicht 
mit Exponent 23, sondern 0. Da sie alle linken und rechten Seiten der Kongruen- 
zen fortlaufend gespeichert hat, sucht sie nur die geeigneten Potenzen von 2 
heraus, wovon keine zweimal verwendet wird. Beispiele: 337=2°+ 2®+ 24+ 2° 
und 67108343 = 275+ 274+ 228-4 ...4 2104 28. 274.264 244 234 29 Ist die rechte 
Seite der letzten Kongruenz gleich 1, so veréffentlicht das Rechengerat den 
dazugehérigen Modul P, der in einigen Fallen auch aus kleineren P desselben # 
zusammengesetzt sein kann, z.B. 2976487=863-3449 von 2%!—14 und 
15139199 = 2383 - 6353 von 2°°7—1. Dann nimmt die Maschine das nachste P, 
bis sie schlieBlich zu einer gespeichetten Null am Ende der sortierten Reihe 
8mp-+1 kommt. Von da ab entwickelt sie in derselben Art die Reihe (8m +2) p+41. 
Wenn kein Faktor gefunden wird, veréffentlicht sie die nachste untere Grenze 
und halt. 

Die Routine zu 2. brauche ich nicht zu erértern. Sie baut sich auf dem 
Beispiel 2—1 in VII auf. 

Zu 3. sind mehrere Routinen im Gebrauch. ISEMANGERs [12] Faktorenzer- 
legungsroutine arbeitet in der Weise, daB zunachst die zu zerlegende Zahl N 
in eine bestimmte Anzahl (etwa 1000) fortlaufender Quadrate Q mit positiven 
und negativen Resten R aufgespalten wird, beginnend mit dem gr68ten abneh- 
menden Q fiir positive wachsende R und abschlieBend mit dem gréBten zu- 
nehmenden Q fiir negative wachsende R. Dann werden alle R vollstandig in 
Primfaktoren zerlegt. Besitzt eine solche Zerlegung als gréBte Faktoren ein 
Quadrat mit einer gréBer als dreistelligen Basis, so wird die Zerlegung dieses 
R vom Gerat veréffentlicht. Die Ergebnisse werden nun bei Hand in der Weise 
zusammengestellt, daB die Multiplikation aller Primfaktoren verschiedener R 
ein Quadrat ergibt. Ist dies der Fall, so werden die Kongruenzen x?=Dy? 
(mod N) und durch Multiplikation aller solchen miteinander die Kongruenz 
A*= B? (mod N) aufgestellt. Dann wird der gréBte gemeinsame Teiler von 
A+B und N gefunden. Dieser und N geteilt durch ihn werden dann nur noch 
auf ihre Primalitat gepriift. 
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Die zweite Methode, die CHRISTILLEs [13] eingehend behandelt, ist nur zur 
Zerlegung von N der Form 4k+1 geeignet. Sie besagt, daB N=x*+4gy?= 
z*+ qw* leicht in Faktoren zerlegt werden kann. 

Die dritte Routine, die gegenwartig vom Verfasser zur Zerlegung von 2)! — 4 
und 21% — 4 ausgearbeitet wird, ist nur auf Mersennesche Zahlen anwendbar 
und beruht auf den in IV, V und VI aufgezeigten Gesetzen sowie auf FERMATs 
Methode [5]. Fiir die Teilroutine, Q?-und R von 2? —1 zu finden, mit der die 
je 184 kleinsten Werte Q? und R von 2? —1 fiir #=101 und 103 gefunden und 
in [14] veréffentlicht wurden, ist der Verfasser seinem friiheren Assistent OLSEN 
sehr verbunden. 

Zum AbschluB soll die Bestatigung des letzten in 1072p 2108 gegebenen 
Faktors 2147466017 von 2971083134, der im Februar 1959 mit dem IBM 650- 
Gerat der Brigham Young Universitat in 4 min gefunden wurde, hier mittels 
GauBscher Kongruenzen wiedergegeben werden, wie sie von meinem Assistent 
BACKMAN, dem ich dafiir danke, mit einer gew6hnlichen Rechenmaschine durch- 
gefiihrt wurde. 


231 = 17631 (mod 2147466017) 22081616 — 1077126638 


282 = 310852161 24068232 — 1471533612 
2124 = 1484080593 28126464 — 502395200 
2248 = 1321985708 216252928 — 426496730 
24% = 893801542 232505856 — 984608956 
2992 — 1284789064 285011712 — 4649224278 
21984 — 2144585395 22081616 = 1077126638 
23968 — 2000404715 287048828 — 1380470581 
27986 — 4544563037 283488 — 1967985228 
215872 — 919005585 287106816 — 4352978721 
231744 — 1123420018 292 — 1284789064 
283488 — 4967985228 267107808 — 842158141 
2126976 — 1871607743 2496 = 893801542 
2253952 — 1168701648 287108304 = 4203755365 
2507004 = 357718955 2° = 512 
21015808 — 77188830 287108313 — 4 (mod 2147466017) 


Nachtrag bei der Korrektur. Bis 1. Nov. 1960 wurden weitere P vom Verfasser 
gefunden, und zwar: der zweite 5335849 und dritte 13523129 Faktor von 235%%—4, 
der zweite 2952311 Faktor von 2°55’—1, der zweite 6086543 Faktor von 2°59§—1, der 
erste 240169 und zweite 60282169 Faktor von 2100074, der erste 35311753 Faktor 
von 2100094, der erste 503351 Faktor von 219674 und der zweite Faktor 484369 


von 210081 4, 


Literatur 


[1] SEELHOFF, P.: 2°'—1 eine Primzahl. Z. Math. u. Phys. 31, 174—178 (1886). 

[2] Euter, LEoNHARD: Comm. Acad. Petropol. 6 (1738), ad annos 1732—1733 
p. 103. Cf. idem, Commentationes Arithmeticae Collectae, I, Petropoli, 
1849, p. 2. 

(3] Lucas, © sel Amer. J. Math. 1, 236 (1878). Zu Algorithmus von Lucas 
cf. idem, Comptes Rendus Paris 82, 165—167 (1876) und Bull. Bibl. Storia 
Sc. Mat. e Fis. 10, 152 (1877). 

Numer. Math. Bd. 3 5b 





86 


(4) 


[5] 
(6] 


[7] 


[8] 
[9] 


(10) 


(11) 
(12) 


[13] 


(14) 





E. Karst: Faktorenzerlegung Mersennescher Zahlen 


Woopa_t, H. J.: Manchester Lit. and Phil. So., Memoirs and Proc. 56, no. 1, 
5 (April 1912). Cf. R. C. ARCHIBALD: MERSENNE’s numbers. Scripta Mathe- 
matica 3, 112—119 (1935). 

DE FERMAT, PIERRE: Fragment eines Briefes etwa vom Jahre 1643. Bull. Bibl. 
Storia Sc. Mat. 12, 715 (1879). Cf. Oeuvres de Fermat 2, 256 (1894). 

ROBINSON, RAPHAEL M.: Mersenne and Fermat Numbers. Amer. Math. Soc. 
Proc. 5, 842—846 (1954). Cf. idem, Some Factorizations of Numbers of the 
form 2%+1. MTAC, Oct. 1957, p. 265—268. 

R1IEsEL, Hans: A New Mersenne Prime. MTAC, Jan. 1958, p. 60. Cf. idem, 
Mersenne Numbers. MTAC, July 1958, p. 207—213. 

SELFRIDGE, JOHN L.: MTAC, April 1959, p. 142. 

CUNNINGHAM, A. J.C. (with H. J. WoopaLL): Factorisation of y*+1. London 


1925. XX, 24 p. 
LEHMER, D. H.: On the Factors of 2*+1. Amer. Math. Soc. Bull. 53, 164—167 
(1947). 


Kraltcuik, M. B.: Factorisation de 2*+1. Sphinx 8, 148—150 (1938). 

IsEMANGER, K. R.: The Complete Factorization of 2'%2-+1. Mathematics of 
Computation, Jan. 1960, p. 73—74. 

CHRISTILLES, W. E.: A Note on the Factorization of Integers. Mathematics 
Magazine, May-June 1960, p. 283— 286. 

Karst, EpGar: BYU-Applied Number Theory News (local monthly since Jan. 
1959), Febr. 1960, p. 3—6. 


Mathematics Department 
Brigham Young University 
Provo, Utah 


(Eingegangen am 1. August 1960) 





Numerische Mathematik 3, 87—91 (1961) 


On the successive over-relaxation method 
| for cyclic operators 
By 
GORAN KJELLBERG 


1. Introduction 


The successive over-relaxation method, or abbreviated, the SOR method, 
suggested by FRANKEL [J] and YOUNG [2], has come to be much used for the 
solution of certain classes of systems of linear algebraic equations, especially 
those which are obtained when partial differential equations are approximated 
by difference equations. For the cases which are most important in practice, 
conditions for the convergence of the SOR method may be deduced from a 
theorem of YounG ({6], p.98). In a recent publication [70], VARGA gave a 
generalization of YouNG’s theorem, to matrices with a cyclic property. The 
present paper carries the generalization still a bit further in the same direction, 
at the same time using a method of proof which is coordinate-free and thus 
not restricted to finite-dimensional spaces. 

Our result is contained in theorem 2, while theorem 1 is a version of a result 
in the Frobenius-Romanovsky theory of non-negative matrices ([7], [8]), which 
is used in the proof of theorem 2. These results were stated in [//]. 

Suppose that 
(1) Ax=d 
is the system to be solved, where x and d are vectors in an n-dimensional vector 
space R and A is an xm matrix which we assume to te nonsingular. The last 
assumption is made for convenience; it is not strictly necessary, since the SOR 
method may also be used when d= 0 and A of rank nm —1. (CARLSSON & ELLDIN[3], 
KJELLBERG [4]). We also assume that none of the diagonal elements of A is 
zero. The system (1) can then be written: ; 


(2) x=Bx+d' 


where B=E—S-1A, d'=S-"d and S is the diagonal matrix formed by the 
diagonal elements of A. (E is the identity transformation). 

The diagonal elements of B are zero and we may write B=L+U where L 
is the lower triangular matrix and U is the upper triangular matrix. The SOR 
method is defined by the formula 


(3) rd = 94 wy (Lax®tt + Ux"+ d’ — x™) 

in which w is a real number +0, and x, x!,..., x”, ... are successive approxi- 
mations to the solution vector x. The formula (3) defines x”"*' as the result 
of a linear transformation applied to x”: 

(4) gt! =e Tle) x™ + 2”, 
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where 
(5) T() =(E —awL)? (E(1—w) +a U) 
a"=(E—owL)'od’. 


A variation of the SOR method, called “block relaxation’’ has also been studied 
(ARMS, GATES & ZONDEK [5]). This method may also be defined by formula (3), 
if we give the letters B, L and U a slightly different meaning. The matrix A 
is partitioned into sub-matrices, with square diagonal sub-matrices, and instead 
of assuming that the diagonal elements of A shall be +0, we now assume that 
these diagonal sub-matrices are non-singular, and denote by S the matrix which 
they form. After these modifications the matrix B is defined as in formula (2); 
it now has zero diagonal sub-matrices in the same partitioning. 

The work which follows will apply in the block relaxation case, which obviously 
contains the original formulation as a special case. 

As is well known, the linear iterative process defined by (4) converges when 
the spectral radius 9(7) of the operator T(w) is <1. Its limit is the unique 
solution of the system 

x=T(w)x+d" 
which is the same as the solution of the system (2). 

The convergence is “‘essentially geometric’’, and the number of iteration steps 
thus roughly proportional to logi/o(7T). In fact YounG [6] defines this function 
to be the rate of convergence. 


2. A theorem on cyclic operators 
From the Frobenius-Romanovsky theory of non-negative matrices we quote 
the following theorem (which applies also when the matrix in question is not 
non-negative). 
Theorem 1. Let R be a vector space, which is the direct sum of # non-empty 


vector spaces 4, %g,...,%,. Let the bounded linear operator B from R to R 
have the property 
(6) Buz © Uja4 (¢=1,2,...,p; ¢ +4 is interpreted modulo #). 


Let ¢ be a p-th root of unity and suppose that yw is an eigen-value of B. Then 
€ w is also an eigen-value of B. 

For the proof, see RoMANovsky [8, p.162ff.]. 

Corollary 1. If u? is an eigen-value of B’, then yw is an eigen-value of B. 


Consider 
(B? — pw E) x= (B—E)(B—pl B)...(B— pl?) x 

where ¢ is a primitive p-th root of unity. If mw? is an eigen-value, with x +0 
as an eigen-vector, the left-hand membrum will be =0. Then at least one of 
the factors in the right-hand membrum annuls the vector which follows it, i.e. 
for some 7, uw’ is an eigen-value. According to theorem 1, then all the other 
uC! are also eigen-values. 

Remark. The property of an operator B to satisfy equation (6), is essentially 
the same as the property which Fropenius [7] and RomANovsky [8], call 
“cyclic with index ~”’. 
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3. Generalization of Young’s theorem 


The following theorem gives a relation between eigen-values of a trans- 
formation B as in equation (2) and the transformation T(w) defined by (5). 


Theorem 2. Let R be a vector space, which is the direct sum of the sub- 


Spaces v,,V,,...,U,, and let B be a bounded linear transformation from 
R to R, that we may write B=L+U. Assume that L and U satisfy 

Lu; y; ; 
(7) | Th (i =1,2,...,m) 

Uv; C v;_, 


where / and k are positive integers, relatively prime to # and with h+k=p. 
(We use the convention that v;=0, whenever 1<1 or >™m). 


Then, if A=+-0 and A is an eigen-value of T(w), every u which satisfies 
(8) (A+ —1)? =o? Ai uP 
is an eigen-value of B and conversely, if « is an eigen-value of B, every A satis- 
fying (8) is an eigen-value of T(w). 

Remark. The case p= 2 of this theorem contains YOUNG’s theorem ([6], p. 98) 
as well as ARMS, GATES and ZONDEKS generalization of it ({5], p. 225). YOUNGS 
“property (A)’’ (in the matrix A) is a special case of “cyclic with index 2’’ (in 


the matrix B) and his “‘consistent ordering’ is what is expressed by (7) in co- 
ordinate-free notation.* 


Proof. Let A be an eigen-value +0 of 7(w) and x a corresponding eigen- 
vector. Then, from (5) 


(A+w—1)*x*=w(AL+U)x. 
Multiplying repeatedly with w(AL+ U) it follows that 
(9) (A+@—1)? x=? (AL+ U)P x. 
x can be uniquely decomposed: 


m 
x=))x;, where x,;Cu, 
i=1 


(AL+U)? can be developed in a sum of terms like A°L‘U?~‘ and for every s 


there are (? such terms with different ordering between L and U. We denote 


the sum of all coefficients of 4° with {L‘U?~*}. Because of (7) we have 


(10) {L* U?-5} %; C4 sh—(p—syk = U4 (s—h)p (é = 4, 2,...,™). 
For 1<i<™m let 7 and ¢ be the integers which are uniquely determined 
$m +h9 
by (1575p 
t=>0. 


* When this work was in the main completed, the author was informed of the 
parallel and earlier work of R. S. VarGa ([9], [10]). VARGA proves, among other 
things, most of our theorem 2, more precisely, the case where k=p—1. VARGA'S 
method of proof is different from the one used here. 
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Define a vector y by the equation 
(11) %,= A’ y,. 
We have then 
(“test x; = Bae UP} Kice—s)p 
s= 





@ 
or 
p 
A+w—1 \P s —sjfys =—% 
(tS=*} ya= La “_ {L* U? } Vitc—s)p 
1 (/A+@—1 \P 
(12) fe (ASP yy = (2+ OF y. 


=te-t ? ' is an eigen-value of (L-+ U)?= B?. If u satisfies 


(12) means that ( oT 
(8); u? will therefore be an eigen-value of B?. But B is cyclic of index ~. For let 


U; =U; + Vj4p + Yrap tH °°’ (j = 4,2, ...,9) 


(7) then implies (6). Applying Corollary 1 of theorem 1 we conclude that yw is 
an eigen-value of B. Note that the argument can also be carried through in the 
case A+w—1=0, when yu also =0. 

Conversely, if uw is an eigen-value of B, uv? will be an eigen-value of B?. If 
A satisfies (8) it must be +0 except possibly when w=1. Excluding for the 
moment this case, suppose that y is an eigen-vector of B? corresponding to p?, 


so that (12) is valid. The substitution (11) gives (9); AL+U fulfils also the 


conditions of theorem 1, and it follows that Aten! 





~ is an eigen-value of AL+ U, 


or in other words, A is an eigen-value of T. This argument is also valid when 
u=O0, so that A+m—1=0. 

In the case w=1, A=0 is always a solution of (8) and if ~=0, it is the only 
solution. But for w=1, 0 is always an eigen-value of 7, since it is always 
possible, because of (7), to find an x0 for which Ux=0. The formulation of 
the theorem is therefore true also in this case. 

By means of (8) properties of o(7) may be derived from known properties 
of the eigen-values of B. For results of this kind, see VARGA [9], [10] where 
the case k= p —1, eigen-values of B? real, is treated. 

Remark. The conditions (7) may be expressed more clearly as follows. If 
a coordinate system is chosen in R which coincides in each v,; (¢=1, 2, ..., m) 
with a coordinate-system of that subspace, the matrix of the operator B takes 
the form (13) (drawn here for the case h=2, R=}, P=5). 























(13) 
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It is a tri-diagonal block matrix where the square diagonal blocks are zero. 

In analogy with the case =2, any matrix which can be brought into this 
form by a permutation of rows and columns which does not carry any element 
across the main diagonal, may be called “‘consistently ordered’. The iteration 
operator T(w) is unchanged under such a permutation, and it seems natural to 
say that the corresponding matrices have equivalent consistent orderings. 
When # is > 2, there exist several inequivalent consistent orderings corresponding 
to the different values of A and k with h+k=p. These give rise to different 
operators T (w) as is evident from (8). Note that the case h=1, k= p — 1, treated 
by VarRGA [10] is the one giving the smallest values of | A| for given y. 
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Alternating direction iteration for mildly nonlinear 
elliptic difference equations 
By 
Jim DOUGLAS, jr. 


1. Introduction. The numerical solution of elliptic differential equations by 
finite difference leads to the problem of solving large systems of algebraic equa- 
tions, linear or nonlinear. The simplest such problem is the Dirichlet problem 
in a rectangle, 


(1.4) (43 + A*) w;5=h,;, (x;, ¥;) = (t4x,7 Ay)ER, 


W; 5; = Bij» (x;, VE OR, 


where At is the centered, divided second difference with respect to x. If the 
number of grid points (x;, y;) in R is sufficiently large, iterative methods require 
much less computation to produce a good approximate solution of (1.1) than do 
direct methods of solution. At the present the most efficient iterative techniques 
for (1.1) with sufficiently small 4% and Ay are two alternating-direction proce- 
dures [7], [8]. The author attempted [6], [7] to generalize the region R, but the 
argument contained an error. BIRKHOFF and VARGA [2] showed that the original 
method of proof does not extend to more general problems, although it is known 
that the techniques work quite well in practice for the elliptic equation 


V- (a(x, y) Vu) — bu = f, b20, 


in an essentially arbitrary region and for more general boundary conditions. 

The objects of this paper are to introduce a modification of the usual alter- 

nating-direction procedures and to show that the iteration converges for the 
Dirichlet difference problem for 
au au 


(1.2) Sat Se =Olnnm, (aNER, 


where R is a rectangle, under certain assumptions on 0Q/du. The technique 
involves a two-level iteration. The outer iteration is a modified Picard iteration 
and the inner iteration is alternating direction. 

WaAcuspREss and HABETLER [10] have discussed a different modification 
of the original process. The limit of applicability of their method, which was 
also known to PEACEMAN, RACHFORD, and the author, is not yet known. 


2. Maximum Principle Method. Throughout this section, let us assume 
that 


(2.1) o<ms 22 ~9(x,y,n) <M<o. 
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The difference analogue of (1.2) that we shall use is 


(4% + AS) w;; = Q(x, 9,5: ,), (x, ¥)ER, 


(2.2) 
Wij = Bij» (%;,¥,)E OR. 


For notational simplification, we shall assume that R is the unit square and 
that dx =Ay=N™. Bers [1] has shown that the solution of (2.2) converges 
uniformly to that of (1.2) under quite general conditions. Consequently, our 
interest is solely in solving the nonlinear algebraic equations. 


The theoretical outer iteration is 
| (A? + Ay) wett'— A wrt? = Q(%;,9;, wt ~ A wi» (x, ¥)ER, 


+) 
wit) = gi, (x;,¥,)€ OR, 


(2.3) 


where A is a positive constant to be determined later. The inner iteration is 
the solution of (2.3) by an alternating-direction method. In fact, since the inner 
iteration does not produce the exact solution of (2.3), the actual outer iteration 
is of the form 


(4? + 4- A) wit? = Q(x, Vj» w}) —Avjii+ Gy = (4% HNER, 


(2.4) nt 
wit) =, ,, (x;, y;)€ OR, 

where the vector e?; is the residual at the end of the inner iteration. The residual 
will be required to go to zero as increases, but not too rapidly. Since Q(x, y, w) 
is not evaluated for the solution of (2.2), it is not necessary that the linear equa- 
tions be solved exactly, and an attempt to do so would increase the computing 
requirements considerably without improving noticeably on the approximation 
of w by wu”. 

Let us consider the convergence of w” to w. Define the uniform norm as 


(2.5) Jo] = max |», ; 


for any vector v defined on (x;, y;)€R. Let 


(2.6) 4, = wit? — wt, n=1,2,.... 

By the mean value theorem, 

(2.7) (4% + 4} — A) 4, =9(%;, 9; wi) 47 — Ate +e —eae', (x, ¥JER, 
T sf; = 0, (x;, y;) COR. 


By a familiar maximum principle argument [4], [5], 
n ¢|A— n— 1 n n- 
(2.8) farps MlA—al peep 1 (lett Jer). 


Let us minimize the coefficient of z*~'. By (2.1), A should be chosen so that 


1— =—1+6, 
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where 6>0. Thus, 


=3(M+m), 
(2.9) = 2am ; 
of Sed ae =e<i. 


Thus, with the choice of A given by (2.9), 
(2.10) ll Sele} + 47 (lel + le). 


Next, let us assume that the inner iteration is continued until 


(2.14) lels Re 

Then 

(2.42) "1s ole] + 0°. 

It is easily seen that 

(2.13) |z"|< o*|2| +20", n=0,1,.... 


Consequently, the sum of the |z"| is finite. Note that the estimate (2.13) is 
independent of 4x. Thus, {w"} converges and at a rate independent of 4x. 
Let w be the limit of {w*}. Obviously, w satisfies (2.2). Then, 


(214) ww] < SIAL S ot — 0) *Le + (1 — 0) (n+ Nad]. 


An estimate for ||z* =|}w!— w®| is easily obtained by estimating w! by use of the 
maximum principle. Then, 


(2.15) 29] < max (2 |w| + A+*(10(x, y, w+ eM, || + lel). 


Frequently, wi, is taken as g;; on OR and zero inside. In this case, 


| 2°] S max (4010 (x, y, Ol + le"), lle) - 


Equations (2.14) and (2.15) may be used to determine exactly how many outer 
iterations are necessary to’ reduce |jw—w"| below any preassigned level. As 
both (2.14) and (2.15) are independent of 4x, this required number of outer 
iterations is independent of 4x. It is easy to see that the number of outer itera- 
tions required to reduce ||w—w”"| below ¢ is 0(—log e) as e—0, with the con- 
stant in the 0(—1og e) term depending on ||z| and 0. 

Consider next the inner, alternating-direction iteration. Each outer iteration 
consists of approximating the solution of an elliptic equation of the form 


(43+ A45—A)Bis =v; (%, HER, 


(2.16) 
Bi5=8:5, (%,¥)EOR, 
by alternating-direction iteration, where y,;;=—Aw?,-+(Q(x;, y;,w%). The 
y £ Vij 17 1 yj 17 
simples* such algorithm is the following: 
py ane wi, 
(2.17) (4, — A) BY! + ALB = vj + CoB! — BY) 


(42 — A) ptr) + A? Beth) = y,, + C, (Bett — ples v4). 
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The square bracket is used to distinguish the indexing in the inner iteration 
from that of the outer iteration, and {C,} is the parameter sequence usually 
arising in alternating-direction iteration. Its choice may be made in the same 
manner as in [6], [8]. 

In order to estimate the number of sweeps necessary in an inner iteration, 
it is necessary to establish on a priori bound for each on 


Bi; — Bi} = B;;— wj;. 


Set 
(2.18) 6;;=B;; — wi}. 
Then, 
(2.19) Bj, — Wf, = 4+ 9; 
and 
(2.20) - (43 + 43 — A) 6;; = — 4. 
Thus, by a maximum principle argument, 

2 -1|| .” e"t? n 
(2.21) «ad 47 les <e" 
By (2.13), (2.419), and (2.21), 
(2.22) |B — w*| So" (n + [2°] +1). 


As the analysis [8] of the computing requirements is based on the L, norm, 
it is necessary to convert to this norm temporarily. Let 


4 
(2.23) lobe = (Zl e.,1(44)*) 
4,7 
where the summation is over the grid points in R. Then, 
lle S |], 
Jo] S (4%) |v. 


Consequently, in order to insure: that |e"|<Ao"*'/(1+@), it is sufficient to 
demand that 
A ott Ax 


(2.25) lle" Ss ~(1+e) . 


(2.24) 


Thus, the ratio of initial residual to final residual is bounded in the L, norm by 


(1+) (n+lledl+ 1) 

(2.26) — > 

As the number of outer iterations is bounded, this ratio is 0((4x)"). By an 
analysis similar to [8], the number of cycles of alternating-direction sweeps 
required for each outer iteration is 0(—log 4x). As the number of sweeps per 
cycle is 0(—log Ax) and the number of calculations per sweep is 0((4x)~*), 
the total number of calculations required to obtain a uniformly good approxi- 
mation to the solution of (2.2) is 


(2.27) 0 ((4x)-* (log 4x)?*). 
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Thus, it appears that going from the Dirichlet problem for the Laplace equa- 
tion to that for (1.2) increases the order of the number of calculations by only 
a factor of —log 4x. Actually, this same factor would arise in the treatment of 
the Laplace equation if uniform, rather than L,, convergence had been required ; 
conseugently, only the constant multiplier in the estimate has been affected. 


3. L, Analysis. In order to remove the restriction that q(x, y, u) be greater 
than a positive constant, we shall turn,to an L, analysis. Assume that 


(3.1) — co< m= 20 (x, y, w) = q(x, y,u)SM<oo. 


Again let R be the unit square, and iterate by use of (2.4), reserving the choice 
of the parameter A. Then, (2.7) holds, 

To facilitate the estimation of z”, let us determine the L, norm for the inverse 
of the operator A? + A*—A, subject to zero boundary values. It is clear that 
the eigenfunctions of 4% + A$ —A are 


(3.2) O,,=sinapxsinagx, p,q=1,...,(4x)*—1, 
and that the corresponding eigenvalues are 
(3.3) Apg = — [A +. 4(4x)-*(sin?x p Ax/2 + sin*ag 4x/2)]}. 
Thus, if A>— 22?, 
(4% + 43 — A)}, = — 433 
(3.4) = [A + 8(4x)-*sin?2 4x/2}7 
< [A + (2— 46) a*)7, 


for any 6>0 and sufficiently small 4x. Consequently, 


(3.5) l2"k Solz”* +0", 
if 
_ _|lA—dll 
(3.6) '~ ALG bat , 
and 
n A +2? n+ 
(3.7) le" S “tin y*. 


In order to insure convergence it is necessary that |A —q|,<A+22%. One 
sufficient condition for this is that 

(3.8) m > — 22°. 

If (3.8) holds, it is again easy to see that the optimum choice of A is }(M +m) 
and the corresponding value of @ is 


> M—m 


Note that A may be negative, which it could not for the maximum principle 
argument. Also, note that the value for @ given by (3.9) is less than that given 
by (2.9) when m->0. 
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If the difference system is linear, 
(3.10) Q(x, y, u) =9(x, y) u, 


a less restrictive condition than (3.8) can be imposed. If g(x, y) is Riemann 
integrable, 


Get) Jim} —ah=[JJ (4 — a(x y))*axay. 


An easy calculation shows that the requirement 
11 
(3.42) SS9(«, y)dxdy >—27* 
: 00 


is sufficient to guarantee the existence of an A for which 9<1 for sufficiently 
small 4x. 

As the value of o is uniformly less than one for sufficiently small 4x if either 
(3.8) or (3.12) is satisfied, the completion of the L, analysis is similar to that 
for the maximum principle analysis. Since the L, norm is used throughout, 
the additional 0(— log 4x) term does not appear, and the total calculation is 
0(— (4x)-* log Ax). 

The requirements (3.8) and (3.12) can be given physical interpretations. 
Note that —2z? is the fundamental eigenvalue for the Laplace differential 
operator on the unit square; conseugently, no solution of the differential pro- 
blem can be expected to exist if the distributed heat sink Q(x, y, «) is of the form 
qu, where g is a constant not greater than — 22*. The condition (3.12) admits 
a localized heat source stronger than 27?u but requires the average multiplier 
to be less than 22”. 


4. Generalization Based on Over-Relaxation. The limitations of the region 
to a rectangle and of the differential operator to the Laplace operator plus a 
zero order operator were caused by the inability to analyse the iteration method 
used for the inner iteration except under essentially those restrictions. If suc- 
cessive over-relaxation [9], [11] is used for the inner iteration, we may generalize 
both the region and the differential equation. However, the computing require- 
ments will be significantly larger, since more calculations will be required for 
each inner iteration. 


Consider the boundary value problem 


V- (a(x, y)Vu)=Q(x,y,m)), (% ER, 


(4.1) 
u(x, y) =g(x,y), (x, y)€ OR. 
Assume that 


(4.2) o<m< "2 <M<w. 


Use the ordinary five point difference equation for (4.1). Let the outer iteration 
be analogous to (2.4), and let the inner iteration be successive over-relaxation. 
The analysis leading to the conclusion that the number of outer iterations is 
independent of Ax is virtually unaltered; hence, we may conclude that the total 
number of calculations necessary to reduce max |w —w”| below ¢ is 0(— (4x)* 
log Ax). The log Ax factor is introduced by the choice of the maximum norm 
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The L, analysis when m is not assumed positive is-also quite similar to that 
for the simpler problem. 

5. Remark. The number of space variables has been assumed to be two 
throughout the discussion; however, nothing except the constant — 22? de- 
pended on this assumption. Consequently, the results extend easily to any 
number of space variables for which an alternating direction iteration can be 
defined. In particular, three space variables can be treated [7]. Obviously, the 
estimate of the total number of calculations depends on the dimensionality of 


the space. 
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Monotonie und Extremalprinzipien 
beim Newtonschen Verfahren * 


Von 
L. COLLATZ ** 


Man beobachtet bei der Iteration nach dem Newtonschen Verfahren haufig, 
daB die Naherungen up, 4,, u,, ... oder zumindest von u, an monoton verlaufen. 
(Das braucht natiirlich nicht stets der Fall zu sein, wie das Gegenbeispiel einer 
Gleichung /(x)=0 in der Abbildung im Falle eines Wendepunktes an der Null- 
stelle zeigt.) Weiterhin ist vom Newtonschen Verfahren fiir eine reelle Gleichung 


p Pf) t L(x) 


\ 


& 
QY 








aH 
& 


a 











Fig. 1. Zur Monotonie beim Newtonschen Verfahren 


{(x)=0 mit zweimal stetig differenzierbarem /{(x) bei festen Vorzeichen von /’ 
und /”’ her folgende Erscheinung bekannt: Findet die Monotonie nicht von x, 
an, sondern erst von %, an statt, so haben die ,,Defekte“‘ f(x») und /(x,) verschie- 
denes Vorzeichen und es wird dann mindestens eine Lésung x von /(x)=0 von 
% und x, eingeschlossen. Es soll hier nach weiteren Fallen gefragt werden, in 
denen man 4hnliche Aussagen treffen und méglichst ohne Zusatzrechnungen 
EinschlieBungsaussagen erhalten kann. 

Die Frage nach dem monotonen Verhalten wurde von KALaBa [3] in Angriff 
genommen, hier soll sie in etwas allgemeinerem Rahmen aufgegriffen werden, 
zugleich ergibt sich dabei eine Reihe weiterer Falle mit monotonem Verhalten, 
und es erfolgt eine Kennzeichnung der Lésungen durch Minimal- und Maximal- 
prinzipien. Der Hauptinhalt besteht in den Satzen1 bis 4. 





* Herrn "VERNER SCHMEIDLER zum 70. Geburtstag gewidmet. 
** Verfasser dankt der National Science Foundation fiir Unterstiitzung. 
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1. Beschreibung des Verfahrens und Voraussetzungen 
Vorgelegt sei eine Gleichung 


(1) Nu=Lu—Tu=6@, 
zu der eventuell eine Nebenbedingung 
(2) Su=r 


tritt. Dabei sei wu ein Element eines Raumes R und N, L, T, S seien Operatoren, 
die samtlich in einem offenen Gebiet D des Raumes R erklart sind. Die Bild- 
elemente Lu, Tu mégen in einem Raum R, und Sw in einem Raum R, liegen. 
r€R, ist ein gegebenes Element. @ ist das jeweilige Nullelement; (es ist wohl 
nicht nétig, Op, Or,, Oz, zu schreiben). R, R, und R, seien lineare Raume, 
R-und R, halbgeordnet und R, iiberdies metrisch. 

Der Operator L sei linear und stetig in D. (Fiir Nr. 5 wird zusatzlich gebraucht : 
Falls L nicht der Nulloperator O ist, soll L- eine (lineare stetige) beschrankte 
Inverse besitzen). Der Operator T sei nicht-linear und stetig in D und sei dort 
einmal schlechthin im Fréchetschen Sinne differenzierbar. TJ’ ist damit ein 
linearer, beschrankter stetiger Operator. S sei ein linearer Operator. Zur Lésung 
von (1), (2). wird das gew6hnliche Newtonsche Verfahren verwendet. Es wird 
eine Folge von Elementen u,, gebildet, wobei u, in D gewahlt wird. Es bedeute 
zur Abkiirzung bei L, N, T, T’ ein angehangter Index n, daB der betreffende 
Operator an der Stelle u, zu nehmen ist, also z.B. 7,=Tu,, L,.,;=Lu, 51, 
T,,=T;,,)- Dann wird beim Newtonschen Verfahren die Korrektur 


(3) 6, =Uyni1— Uy 
nach 

N, + Nid, =, + Ng (t6y:1 — My) = Ly — Ty + L(g 21 — Un) — Te (41 — %) = 9, 
also nach 

(4) | Lyyi=T, + Tr 5, 














bestimmt. Falls eine Nebenbedingung (2) auftritt, ist zu (4) 


(5) $%,.,=7 
hinzuzunehmen. 


2. Der Monotoniesatz 
Definition. JT ist ein konvexer (bzw. konkaver) Operator, wenn gilt 


Ti.) (v — w) S (bzw. >) Tv — Tw fiir beliebige v, wE D, 
d.h. 
(6) Tv = (bzw. S) Tw+T;,)(v—w) fiir beliebige v, wE D. 
Es gilt dann mit 
(7) Tv= Max (daw. Min ) [Tw + Ti») (v — w)] 














ein Maximum (bzw. Minimum) Prinzip fiir konvexe (bzw. konkave) Operatoren. 
Das Maximum (bzw. Minimum) wird fiir v= w angenommen. 
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Beispiel. Es sei Tf=g(f) und g(f) eine zweimal stetig differenzierbare reell- 
wertige Funktion einer reellen Veranderlichen f und f=/(x,,..., x,) eine reell- 
wertige Funktion der m reellen Veranderlichen x,,..., x, (z.B. g(f)=e’). 


Nach der Taylorschen Formel gilt dann 
g(v) = g(w) + g’(w) (v — w) + 3g"(®) (v — w)*, (® Zischenwert in <v, w)), 


Tf ist also konvex (bzw. konkav), falls g’’(/) =0 (bzw. <0) in D gilt; ein weiteres 
Beispiel steht in Nr. 4 unter I. | 
Es werden nun folgende vier Voraussetzungen betrachtet: 


(a,) 7 ist ein konvexer Operator in D, 

(a,) TJ ist ein konkaver Operator in D, 

(b,) Aus Lf= Tf und S/=@ folgt {=O fiir alle {€ R, gE D. 

(b,) Aus Lf= Tj)f und S{/=@ folgt /<@ fir alle /€ R, g€ D. 

Die Voraussetzungen (b,), (b,) sind von den ,,Aufgaben monotoner Art“ her 
bekannt. Bei CoLLatz [1] ist gezeigt, daB z.B. (b,) bzw. (b,) bei allgemeineren 
Klassen von Randwertaufgaben gewodhnlicher und partieller Differentialglei- 
chungen erfiillt sind. 


Unter der Voraussetzung (a,) bzw. (a) folgt aus 


L thy y= T ty + Tray) (thy 3 — My) S (baw. S) T ty 
und ’ 
Ly 49= TUy44 + | (Unse — Mn+1) 
durch Subtraktion 

L 6, +1 = = (bzw. S) Tn41 é.. 1? 
ferner gilt S6,,,=0. 


Im Falle (a,) gilt 
L(-— bn41)2 Thaa(— 6,41)» S(— 6,.;) =9 


In beiden Fallen sind (b,), (b,) anwendbar und es folgt 6, ,,20 unter den Vor- 
aussetzungen (a,), (b,) oder auch fiir (a,), (b,), dagegen 6,,,<0 fiir den Fall 
(a,), (b,) und fiir (a,), (b,), jeweils fiir m=O, 1,... 

Somit gilt der 

Satz 1. (Monotones Verhalten). Fiir die Iteration (4), (5) nach dem gewohnlichen 
Newtonschen Verfahren gilt, falls eine der Voraussetzungen (a,), (ag) und eine der 
Voraussetzungen (b,), (b,) erfillt sind, u,.,=u,, bzw. u,,,Su, von n=1 an nach 
dem folgenden Schema 


(a,) | (ae) 


(b,) | Wiss 2 tga Sty (n = 1, 2,3,-..) 





(b,) Uy 1S, Uni, = Uy, 





Beispiel. Die gegebene Gleichung / (x) =0 mit der im Intervall D nichtlinearen, 
zweimal stetig differenzierbaren, reellwertigen Funktion / (x) der reellen Verander- 
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lichen x soll nach dem gewéhnlichen Newtonschen Verfahren gelést werden: 
i (%n) 
f' (%n) : 
Es ist in diesem Fall L=0 und T x=/(x). 
(a,) bzw. (ag) ist erfiillt, falls /’’(x)=(bzw.S) 0 in D 
(b,) bzw. (b,) lautet: Aus 02 /'(&) x folgt x= (bzw. S) 0 fiir alle x, € und ist also 
erfiillt, falls f’(&)< (bzw. >) 0 fiir alle &€ D. 
So erhalt man hier das bekannte Schema (Fig. 2). 


x, er x, Xo gegeben, (n == 0, 1, ES ee .) ° 




















(a,) F"z0 (a,) "so 
v Troy = Tp Tro = Th 
(0) Diao: 
f'<0 pn. - : “ 
| a z, ‘a 1 < 
(N=42,.) 
y Thor EZ p 
(6,) 
f'> 70 = 
‘| lz = 














Fig. 2. Monotonie und erstes Extremalprinzip beim Newtonschen Verfahren 


3. Maximumprinzip und EinschlieBungssatz 


Die Iterationsvorschrift (4), (5) werde als u,,,;—=(u,) geschrieben, d.h. wenn 
v€D liegt, sei v und g(v) ein Paar, welches die Gleichungen 


(8) Lov) =Tv+T (pr) —»),  Spr)=r 


erfiillt. Fiir eine Lésung u von (1), (2) gilt, falls T ein konvexer (bzw. konkaver) 


Operator ist 
Lu=Tu2 (baw. S) Tv + T;,(u — 2), Su=r. 


Subtraktion ergibt, da L, T..) und S lineare Operatoren sind, 
L (u— p(v)) = (baw. S) T(u—p(v)) S(u—(v)) =9. 
Es gilt also wie in der vorigen Nummer 


u — p(v) =O bei (a,), (b,) und bei (ag), (b,) 
und 
u — y(v) SO bei (a,), (b,) und bei (ag), (b,). 


Es gilt somit der 

Satz 2. (Erstes Extremalprinzip). Das gewdéhnliche Newtonsche Verfahren (4), 
(5) tefere, ausgehend von v=, das Element (v)=,; es mégen v, p(v) und eine 
Lésung u von (1), (2) in D liegen. Falls je eine der Voraussetzungen (a,), (a) und 
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(by), (ba) erfiillt sind, gilt fir u ein Maximum- bzw. ein Minimumprinzip nach 
dem folgenden Schema (das Maximum (bzw. Minimum) wird fiir v=u angenommen) : 





| (a,) | (a9) 
“z= eo) fiir veD| “sSelv) jar veD 
(by) bzw. u= Max y (v) | bzw. w= Min y (v) 
’ | 
(b,) us —p(v) fiir veD| mae fiir veD 
"| bzw. w= Min y (v) | bzw. u= wax y (v) 





Nun werde auBer der Existenz einer Lésung u€ D noch iiber den Defekt d 
der Ausgangsnaherung u, welche bereits Su)=r erfiille, vorausgesetzt 
(9) duy= Luy—Tu=9. 
Dann folgt fiir einen konvexen Operator T pach (6) 

L uy — dy =Ty => Tu + Thy (uy — uv) = Lut Ty (uy — 1) 

(10) L(t — 4) S dug + Tu (to — ¥) = Tuy (to — 4), S(t — us) =. 
Unter der Voraussetzung (b,) (bzw. (b,)) ergibt sich daher 
(44) Uy — u=O (bzw. SO). 

Bei einem konkaven Operator hat man entsprechend in (9), (10), (41) jedes- 
mal <S anstelle von = zu schreiben. In Kombination mit Satz 2 folgt so 


Satz 3. (EinschlieBungssatz). Unter den Voraussetzungen von Satz 2 set iiber- 
dies der Defekt duy=Lu,—T ug, falls T ein konvexer Operator ist, =O und SO, 
falls T konkav ist. Ferner erfiille uy die etwa vorhandene Nebenbedingung (2). 
Dann gelten in den einzelnen Fallen die EinschlieBungsaussagen nach dem folgenden 
Schema: 

| (a 1), 4% =O | (ag), du <O 


(by) Mm SUuUsSH% | pS usm 








(be) UM SUusy | y4Susn 


Die Betrachtung (9), (10), (11) liefert zugleich einen Satz, der das Gegenstiick 
zu Satz 2 liefert, indem u jetzt in den 4 Fallen des Schemas jeweils durch ein 
Maximum- und durch ein Minimumprinzip dargestellt werden kann. 

Satz 4. (Zweites Extremalprinzip). Fiir die Gleichung (1) seten je eine der 
Voraussetzungen (a,), (ag) und (b,), (by) erfiillt. Dann ist u das Minimum, bzw. 
das Maximum von uy, entsprechend dem folgenden Schema, wenn uy innerhalb des 
Definitionsbereiches D die Menge aller die etwaigen Nebenbedingungen (2) erfiillenden 
Elemente mit einem Defekt du,=O im Falle (a) und mit duy<O im Falle (ag) 
durchlauft : 

(ay) | (2) 


(b,), w= Min uy tir du =O w= Max uy fiir du, <0 





(b,) | «= Max u, fiir du, = 6 u=Minu, fiir duysO 
Numer. Math. Bd. 3 8 
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4. Nichtlineare Randwertaufgaben als Beispiele 
I. Gegeben sei die Randwertaufgabe: — «’’ = f(x, u, wu’) 
u'(a) — 4 u(a)= d, 
u'(b) + ¢,u(b) = d,; 
alle GréBen seien reell und f(x, u, u’) besitze stetige partielle Ableitungen beziig- 
lich « und w’ bis zur zweiten Ordnung einschlieBlich. Ferner sei a<b, c,=0, 
Co=0, |c,| + |c.]>0. Hier sei Luw=—u"’ und Tu=f(x,u, wu’). Die Rand- 
bedingungen sind hier die Nebenbedingung (2). Die Fréchetsche Ableitung 7, v 
des Operators T lautet Tj, v=/,(x, u, wu’) v+f, is u, u') v’ 


(mit den iiblichen Abkiirzungen /,, = oe; Shy= ae 3h). 


Nach der Taylorschen Formel gilt 
To—Tw— Tw) (v ac w) = f(x, v, v’) — f(x, w, w’) = 


— f,(%, w, w’) (v — w) — fy(%, w, w’) (v’ — w’) 
a a uu (*, w*, w’*) (v mY w)? + 2huw(*, w*, w’*) (v — w) (v’ _ w’’ 
+ fry (x, w®, w'®) (v’ — w’)?). : 


Dabei ist w* bzw. w’* eine Zwischenstelle in <v, w> bzw. in <v’, w’>. Daher ist 
hier T ein konvexer (bzw. konkaver) Operator, falls die symmetrische Matrix 


fas hy u’ 


negativ) semidefinit ist. 

II. Numerisches Beispiel fiir I. Gegeben sei india u’=x-+ u*, u'(0)=u(1)=0. 

Hier wiiu Lu=— vu” und Tu=— x — uv? verwendet. 

D sei der Bereich der in <0, 1) nichtpositiven, zweimal stetig differenzierbaren 
Funktion . «(x). Es sind die Voraussetzungen (a,) und (b,) (nach CoLLatz [7], 
S. 368) erfiillt. 

Die Iterationsvorschrift (4), (5) lautet 


M= ire ha “ im ganzen zugrunde gelegten Definitionsbereich D positiv (bzw. 


Un yi =X+2U, Uni, — UR und u,,, erfiillt die Randbedingungen. 
Die Ausgangsnaherung 
UM =O ergibt u,=— $(1— 4). 


WeiB man, daB in D eine Lésung » existiert, so folgt uw u,. Um 1 auch von der 
anderen Seite einzuschlieBen, wahlt man eine Funktion ug mit 


dug =— ug'’+x+u3*<0 
welche auch die Randbedingungen erfiillt, etwa 


us = — 0,03 (1 — x*) — 0,15 (1 — x9); 


und die EinschlieBung lautet uf <u<u,. Die Schranken lassen sich natiirlich 
durch Verwendung von Polynomen héherer Grade verbessern. 
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III. Gegeben sei die Randwertaufgabe — 4u(x, y)=1+[u(x, y)]?, w=0 fiir 
r==1 mit r?= x?+4-y? und J als Laplaceschen Operator. Die Iterationsvorschrift 
lautet 

— Ap(v) =1+ 2vy(v) — v, g=v=0 fir r=1. 


Der Ansatz p=a(1—r*), v=6b(1—7°) fiihrt auf 
4a=1+(2ab—6*)(1—7?)? dh. a=}, b=0 oder }. 


Es ist also uy=0 oder =$(1—7*) und u,=q@(u)=}(1—7?). Hier sind mit 
Lu = -— Au die Voraussetzungen (a,), (b,) erfiillt, wenn man als Bereich D die 
Menge der in r<11 nichtnegativen mit stetigen partiellen Ableitungen bis zur 
2. Ordnung einschlieBlich versehenen Funktionen wahlt. 

Wenn in D eine Lésung u existiert, so gilt nach Satz 2 u,<u, und bei Aus- 
fiihrung weiterer Iterationsschritte wiirde gelten u,Su,<u,... 


Fiir die Funktion w= 6(1—~r*) wird der Defekt 
dw=Lw—Tw=4)—1-—8(1—,7*)?2=0 


fiir 2— \3s bs2+ V3. . Nach Satz 3 ist daher w fiir b=2 — \3 eine obere Schranke 
fiir die als existierend angenommene Lésung u, so daB diese ganz grobe Rechnung 
ergibt: 0,25 (4—7*) S[u<0,268 (1—7?). 


5. -Konvergenz 

Unter Zusatzvoraussetzungen, vgl. SCHRODER [4], CoLLatz [2], kann man 
Konvergenz des Newtonschen Verfahrens und Existenz einer Lésung u von (1), 
(2) beweisen. Hier kann man unter den folgenden Zusatzvoraussetzungen, ohne 
Annahmen iiber die zweite Ableitung, punktweise Konvergenz der Folge u,, zeigen. 

a) Der Raum R enthalte nur reelle Elemente, z.B. reelle Vektoren oder reelle 
Funktionen, und das Zeichen S habe die gewéhnliche Bedeutung, 

b) R sei supermetrisch, d.h. es gelte fiir beliebige Elemente /, g,h aus R 
stets o(/, g)=o(f+h, g+h). Dabei bedeutet 9 den Abstand. 

c) Es gebe nichtnegative Konstanten A, B mit 


o(Tu,,0)5A+ Bo(u,,0) (* = 0, 4, 2,...) 


d) In D existiere die beschrankte Inverse L~! und die Ableitung 7;,. Es gebe 
Konstanten C, M, mit (Doppelstriche bezeichnen wie iiblich die Normen der 
Operatoren) 


|Z4|/<SC, |Z.) M, fiir alle v€ D und es sei 
(8) C(B+2M,) <1. 
e) Die Kugel der Elemente v mit 
CA 
(9) o(v, 0) S Max y= C(B+2M,)’ 0 (%y, 0) 


gehére zu D. 


f) Die Folge der u,, (n=1, 2, ...) sei monoton. 
8* 
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Dann konvergiert das Iterationsverfahren L,,,,—T,,+7, 6, gegen eine in D 
existierende Lésung u von Lu— Tu=@. 
Beweis. Aus (4) 
Uns = L* (7, + T, Uy+1 — rm U,,) 
folgt 
0 (ty41,9) SCA + Be (uy, O) + My 0 (Un41,9) + My 0 (4, 9)] 


und damit 


0(U,41,90)Sa+Bo(u,,0) (n=0,1,2,...) mit ef eee Sing 
1—CM, | 
ae _ C(B+M,) | 
Dabei ist wegen (8) pm en, <1. 


Die Folge der 0 (u,,, @) ist also beschrankt; es ist 





0 (4,0) Sat=F + BY 0 (up, 0) < =F + 0 (to, O); 


=F ,0(U, 0)}, es liegt u, 
in der Kugel (9) und daher in D und es konvergiert die monotone und beschrankte 
Folge der reellen Elemente u,,. 

Bei Funktionen u erhalt man lediglich punktweise Konvergenz. Um dann 
die gleichmaBige Konvergenz gegen eine stetige Grenzfunktion u, etwa nach 
dem bekannten Haufungsstellenprinzip fiir Funktionen, aussagen zu kénnen, muB 
man im Einzelfall nachpriifen, ob die Funktionen u, die beim Haufungsstellen- 
prinzip geforderte Eigenschaft der gleichgradigen Stetigkeit erfiillen (gleich- 
maBige Beschranktheit ist gesichert). 





eine elementare Betrachtung zeigt o(u,,, @)< Max : 
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Der Wert einiger Konstanten in der Theorie 
der Approximation mit Bernstein-Polynomen 
Von 
P. C. SIKKEMA 


1. Einleitung und Ergebnisse 


Es sei-/(x) eine beliebige auf dem geschlossenen Intervall [0, 1] der reellen 
x-Achse definierte reelle stetige Funktion und (6) ihr Stetigkeitsmodul, d.h. 


@ (8) = max |/(x) — f(y) (*, ¥€[0, 4]). 


Das fiir n=1, 2, ... definierte Polynom 


B, (x) = (2) (") x71 — ayn" 


wird das zu /(x) gehérige n-te Bernstein-Polynom genannt. Es stellt auf [0, 1] 
eine Annaherung von f(x) dar. 
Popoviciu [1] zeigte, daB diese Annaherung die Eigenschaft hat, daB es eine 
Konstante K gibt, derart, daB die Abschatzung 
-_ —4 
gmax|f(x) — B,(x)| S$ Ko(n“) 
gilt bei jeder Wanl von /(x) € C[0, 1] und fiir »=1, 2,.... 
Es sei x die untere Grenze der Menge aller solcher Konstanten K. LorENTz [2| 
zeigte 1953, daB x nicht kleiner sein kann als 1 und ich bewies in einer friiheren 
Arbeit [3], daB x nicht gréBer ist als 1,093785 ..., so daB x die Ungleichungen 


15% S1,093785... 
geniigt. 
In der vorliegenden Arbeit werden wir zeigen, daB der genaue Wert von x ist 


_ 4306+837 6 
= 
5832 





oder, in dezimaler Schreibweise, 
x = 1,0898873.... 


AuBerdem werden wir eine Methode herleiten, die uns gestattet fiir beliebige 
natiirliche » die untere Grenze x, der Menge aller Zahlen K,, zu berechnen fiir 
die die Abschatzung 

max | f(x) — B,(x)| SK, w(n~4) (1) 


os*sl 
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gilt fiir ede Wahl von f{(x)€C[0,1]. Fir n=1, 2,...,8 erhalten wir folgende f 
Tabelle | 
























































Tabelle 1 
*n in 
(dezimale (dezimale 
4 “ Schreibweise, | ™ ™ Schreibweise, 
abgerun‘et} abgerundet) | 
1 2 WwW 
1 1 1,000000 | 5 4-1 =V5 1,069 505 
2 2t ya 1,085786 | 6 sees 1,089887 
10 y= P 35442+33754 V7 
3 3— > ¥3 1,075499 | 7 we 1,060 329 | 
1 pei 3865 512 V8—1937991 
+ 1 16 1,062 500 8 83388608 1,072327 
2. Zusammenstellung einiger unserer friiheren Ergebnisse 
Wenn wir setzen 
s 
Puy (x) =(") e(1— x)"-" (nm 1,2,...5 9=0,1,..., 0), 
so gilt 
f(x) — B(x) = > {t(x) — #(=)} Pol), 
v=0 
also 
~ B(x) < 3 — t(= ; 2 
\/() — Bu(2)] S > |f(#) — 1(5)| Pao) (2) 
Nun ist bekanntlich _ 
w (Ad) S Aw (8) (6> 0), 
wenn A eine nicht-negative ganze Zahl ist und? 
ie t 
w (Ad) S ([A] + 1) w (6) (d> 0), 
wenn A>0. nicht eine natiirliche Zahl ist. Also gilt fiir jedes AZO 
w(A6)S(1+]Af)w(6) (6 >0). (3) 
Beniitzen wir (3) so erhalten wir die Ungleichungen 
3 
v v n 
lie) — #(2)| s@(|x-= )=ovo fr] ; I. 
Also ist wegen (2) 
v 
n *—-—— 
If (x) — B,(x)| S (8) {1+ a | "LT peta. (4) 
v=0 


1 Im folgenden bedeutet [a] die gréBte ganze Zahl die nicht gréGer als a ist und 
ja[{ die gré6Bte ganze Zahl die kleiner als a ist. 
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t Rechts ist 








| v 
x _ 
n 
6 
fiir alle tibrigen Werte von », so erhalten wir die Abschatzung 


Pro(x)} (5) 








] ye 
fiir all diejenige v fiir die E _ 2 <6 ist. Ersetzen wir | durch > |x— ~ | 





|#(x) — B,(x)| < (6) {1+ sz |#- is 


wo das Akzent bedeutet, daB nur iiber diejenigen Werte von vy (0S »Sm) summiert 


wird, fiir die |x — |> 8 ist?. 





Aus (5) haben wir in [3] die folgende Ungleichung hergeleitet, indem wir 
d6=n~* nehmen, 


| #(x) — B,(x)| Sw(n-4) {14+ Yn(F, (x) + F,(1 — »))}, (6) 
. ae » (0 fir OS x<n-}, 
F,(%) = fou tt — x)" fir n-t<x<1, (7) 
mit 


r= |nx— Yn{. 
Die Funktion F,(x) hat Unstetigkeitsstellen in diejenigen Punkten, wo 
Nx — \n einer ganzen Zahl gleich ist. Es sei 


a — sup f,, (x) 
in dem Intervall 


—- 5 <xs art y=0,1,..., |n— n{). 
Ta + x + ( Jn — Yn) 
In [3] haben wir gezeigt, daB T,,, gleich dem Funktionswert von F,,(x) im linken 
Endpunkt dieses Intervalles ist, also 
T,, =F, fa ah 
n 
, - n—1 - 3 Y r+1 = 1 = Ld cased 
Nie te) (yea ay 


Nun ist klar, dab 





sup F(x) = max 7,, 


oO Eo 


2 Formel (5) ist dieselbe als Formel (12) in [3]. In der dortigen Herleitung dieser 
Formel hatten wir besser ] [ statt [ ] geschrieben. 
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Um das Glied rechts in (8) abzuschatzen betrachteten wir in [3] die Funktion 


I'(n) 1 g \et+1 1 o\"-e 
T,, 7 + - 1 a ’ 
(2) = P(o+1) I'(n—o) (is 4 ( \n 4 (9) 
die aus T,,, entsteht durch Ersetzung von r durch das im Intervall OS 9gsn— \n 


stetig vertndediche e. Die Substitution e=o — \/n fiihrt 7, (0) iiber in die Funk- 
tion 








I'(n) n—*—* —|n+1(y —— q\n—o-+- yn 
U, (¢) = Te—a+1) T(—e+ Ya) o° (n — a) , (10) 


die auf dem Intervall /ns osn erklart ist. Diese Funktion U,(o) hat folgende 
Eigenschaften : 


1. Fiir n=16 und \nsSosjn gilt 

U, (6 +1) — U, (0) > 0. (11) 
2. Fiir n=16 und in+t|nso<n-1 gilt 

U,, (6 + 1) — U,(¢) <0. (12) 


3. Abschatzung von U,,(o) fiir n 2 18 


Es gilt folgender Satz: 
Fiir n=18 und |nSosn ist 


2 /n U, (a) < 0,08970. 


Beweis. In Beweis des Hilfssatzes 7 unserer Arbeit [3] haben wir die Un- 
gleichung 





U, (5 n+T )n) < snes OR (a + W, (r)) ; 


22a 


worin 0S tS? und m=16, bewiesen. Der genaue Ausdruck fiir W, (rt) bendtigen 
‘wir hier nicht; nur brauchen wir die nachstehenden Ungleichungen (13) bis (16), 
die wir im Beweis des genannten Hilfssatzes hergeleitet haben. In den Intervallen 


I: 0st<yx, 

II: s$St<7, 

II: yyStr<i—}$y]2, 

IV: 1-3)/2<1<} 
gilt fiir W,,(r) nacheinander 


in I: 
W. as So See 5 J k-- 6% _ 1 ‘ 
n(t)<—3+ ii oe 4 =» Va +. yaw (13) 
in IT: | 
W(t) < —3-4+—2. — Wo 4 S170 _ 3460 4 Ob _ 1h, (14) 


\n n nyn n® = )n 
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in IIT: 
- 2 _ 48 , 5,040 _ 1,640 OES | 
W,(t)<—3+ x a f a - alia mya (15) 
in IV: 
; _a4.2 _ 3 | 4.250 _ 1,370 , 4,800 _ 1f 
W,(t)< —3+ ae + a ce (16) 


Die Glieder rechts in (13) bis (16) sind fiir »= 18 monoton fallende Funktionen 
von n, wahrend sie fiir »=18 nacheinander gleich 


1 


sind. Dies bedeutet, daB ra + W,,(r) fiir n»=18 in I bis IV nacheinander gleich 


— 3 + 0,5002, — 4+ 0,4953, = 3+ 0,5065, rind 3 + 0,5041 
ist. Daraus folgt, daB fiir O<t<} gilt 
2/nU,(n +1 Yn)< ©" = 0,08060. 


22 


Zusammen mit den genannten Eigenschaften 1 und 2 der Funktion U, (a) erhalten 
wir hieraus die Richtigkeit des Satzes. 


4. Abschatzung von |f(x) —B,,(x)| fiir n=1, 2, 3, ... mit Ausnahme von n=6 


In § 4 unserer Arbeit [3] haben wir unter Beniitzung einer dort auseinander- 
gesetzten Methode die GréBe 
sup |/n{F, (x) + F,(1— x)} (17) 
Os*xsl 
berechnet fiir »=2, 3,..., 15. Unter Verwendung derselben Methode kann man 
(17) berechnen fiir m= 16 und n=17. Tabelle 2 

Fiir »=6 werden wir im_ niachsten "|. he = x, 
Paragraphen eine neue Abschatzung fiir 
|#(x) —B, (x)| herleiten. | 

Fiir »=1 ist 6=1 und folglich ist in (5) 
die Summe 2” leer. 

Die berechneten Zahlen werden hier 
zu 1 addiert, was wegen (6) Werte fiir die 
Konstanten K, (n=1, 2,...,17; m=+6) lie- 
fert in der Abschatzung (1) von| f(x) — B,,(x)|. 

Weiter folgt aus dem Satz des § 3 und aus (12), (11), (10), (9), (8), (6) und (1) 
daB die Ungleichung 








1,0000 10 1,0644 
1,0858 11 1,0739 
1,0755 12 1,0840 
1,0625 13 1,0603 
1,0737 14 1,0668 
1,0653 15 1,0745 
1,0785 16 1,0554 
1,0545 17 1,0598 








WO CONUAWD = 





| (x) — B, (x)| S 1,08970 w (n~4) (18) 
fiir n= 18 gilt. 
Hieraus und aus Tabelle 2 folgt, daB (18) mit Ausnahme von n=6 fiir alle 
natiirliche Zahlen » gilt. 
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5. Abschatzung von |f(x) —B,(7)| 
Fiir n=6 lautet die Ungleichung (4) 


(2) — Ba(2)] (6-4 {1+ © ]y6|x— Z| [b0-(2)} 


Wir bemerken, daB der Ausdruck zwischen Akkoladen nicht von /(x) abhangt. 
In diesem Paragraphen werden wir 


sup > |V6|*— || P0-(0 (19) 


O0<*S1 ,—9 


bestimmen. Zuniachst ist klar, daB, wo auch x auf dem Intervall [0, 1] liegt, 


die GréBe 
v 
Vx <I] ‘ m 
fiir jeden der Werte von v=0, 1,...,6 gleich einer der vier Zahlen — 1, 0, 1, 2 
ist. Welcher dieser vier Zahlen (20) gleich ist, hangt von der Lage von x auf 














Tabelle 3 
’ Wert von | 6 | x— Z| fiir » gleich 
0 1 2 3 gay’ 5 6 
*=0 —1 0 0 4 1 2 2 
5 2 
0<4< Se rt) 8) (0) 1 1 2 2 
6 V6 
} ae Seem tae & ) 0 0 1 1 1 2 
6 6 2 6 
ap =k sale Cal tee ry) rs) fs) (4) 1 1 2 
2 6 y6 
1 
= — —1 rs) 0 1 1 2 
6 0 
1 2 
= <s<1— — re) rs) 0 rt) 1 1 2 
6 V6 
2 2 1 
1— —- s*#< — - — 0 8) 0 8) 1 1 1 
V6 3 6 
2. a cee ot eT et 6 Perr 1 
3 V6 3 
r= > 0 o 19 0 0 1 1 
1 1 
— <*#S —— 0 8) 0 () 0 1 1 
3 V6 
4 sek wee to] 0 fo |e jfthada§ ob ol 
I (: 
5 i 1 
= oe oe SH — 1 0 0 0 0 rn) 1 
6 66 2 , 
1 
= — ft) Oo |—1 0 ) 1 
- 1 
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(0, 1] ab. In Tabelle 3 haben wir den Wert von (20) eingetragen fiir y=0, 1, ..., 6 
in Abhangigkeit von x, wobei wir uns offensichtlich auf dem Intervall [0, }] 
beschranken kénnen. 




















In den dreizehn in Tabelle 4 
Tabelle 3 auftretenden Fal- ¥ Wert von (21) | Wert von (22) 
len beziiglich x ist es leicht 
den Wert von wich -. 
gene 2 = 3. 0,0001 
ih 6” ¥6 
d|V5le—-Z lou) 25 on a 
Frmee > ——s*<—- 0,0125 
6 6 2 6 ; 
bzw. 1 rer. one 
—— = S*#< > ,008 
ey: 2 6 6 i 
sup >| 1] — = ||bc (x) (22) 1 

r=0 6 .. wae e's 
zu bestimmen, denn in ‘ htm wae | 0,0124 
jedem dieser Fille ist V6 
der Ausdruck (21) mit qc igpe 2 a a | 0,0422 
Hilfe der Tabelle 3 sofort V6 3 V6 | 
hinzuschreiben. In neun $ bok. << £ | 0,017S 
dieser dreizehn Fille ha- y6 3 
ben wir nur die Ablei- ion = —0,3114 
tung von (21) zu _berech- : ’ ‘ 
nen und es stellt sich 3 <* a 0,0449 
heraus, daB sie positiv P ; yo . 
ist in den ersten acht qe <4#< FZ 0,0898873 
Intervallen und negativ in Ve . 18 | 

5 1 1 > — ——- S4*< -- | 0,0420 
—+—-—s —. - _ Pe 

; 5 <1%< . Das Re 6 6 2 | 
sultat ist in Tabelle 4 zu- x= 3 —0,2813 | 
sammengestellt. 


Wir entnehmen Tabelle 4 daB (19) gleich 0,0898873 ist. Das bedeutet, daB gilt 
| f(x) — Bg(x)| S 1,0898873 w (6~'). 
Also ist K,=1,0898873. Der genaue Wert von Kg ist, wie aus Tabelle 3 zu 


aseiene Ky=1+ (6) (1 — 2) + (8) a8(4— x) + (8) 28 


im Punkte x = 2 pa a 


V6 
— 4306+837 6 (23) 
332 








6. Bestimmung von x 
Aus den Ergebnissen der Paragraphen 4 und 5 folgt unmittelbar, daB fiir 
jede Funktion f(x) aus C[0, 1] und fiir jede »=1, 2, 3,... die Ungleichung 
|#(x) — B,(2)| < Kon 


gilt. Also ist : 
xs Kg. (24) 
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Jetzt werden wir eine Reihe von zu C[0, 1] gehérende Funktionen 


8: (*), &2(x),... 


konstruieren, mit der Eigenschaft, daB fiir jede von ihnen gilt w(6~4!)=1 und 
daB, wenn wir setzen 


sup |g,(x) — Bg ,(x)| = L, (kh = 1, 2,...), 
0s*s1 


die Grenzbeziehung 
jim L,=K, 


gilt. Dabei ist B, ,(x) das zu g,(x) gehérende Bernstein-Polynom 6-ter Ordnung. 
Damit wird dann bewiesen sein, daB neben (24) auch 


x=K, (25) 
sein muB, d.h. es ist 


x= Ke. (26) 


Um nun eine zur Reihe {g,(x)} gehérende Funktion zu konstruieren brauchen 
wir nur in Tabelle 3 zu sehen welches Bernstein-Polynom das Supremum in (22) 
liefert, wonach es nicht schwer ist eine Funktion g,(x) zu bilden, wozu jenes 
Bernstein-Polynom gehért und deren Stetigkeitsmodul w(6~*) gleich eins ist. 


Aus Tabelle 3 lesen wir ab, daB das gesuchte Bernstein-Polynom ist 


Bea (x) —1-(6) (= x)*+4-(8) x5(1 — x) +4-(8) x; 


es hangt nicht von # ab. Eine Funktion g,(x) die dieses Polynom als Bernstein- 
Polynom sechster Ordnung hat, mu8 in den Punkten x=0, &°4 den Wert 1 
annehmen und in den Punkten x=3,4,3,% den Wert 0. Von der Funktion 
g,(x) werden-wir noch verlangen, daB sie im Punkte 


x= poms © oe | 5 =r ° 
6 ye #6 ¥ 


den Wert —1 hat und daB sie in den Punkten 


und 





| 
. 
| 
| 


La | 
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den Wert 0 besitzt. Zwischen den Punkten mit Abszis 0 und u,, u, und v,, 
v, und x,, x, und y,, y, und z,, z, und 3, $ und 4 sei g, (x) linear. Ihre graphische 
Darstellung ist in Fig. 1 gezeichnet. 








7 7 
len Z, 2 
0 Ve U2"\'1%, Ve 4 7 
4 
Fig. 1. Die Funktion ga(x) 
are Oe 
6 V6 
Offenbar hat g,(x) den Stetigkeitsmodul 1 und es gilt 
gmax | 8,(*) — Bon (*)| =|8(%4) — Boa ()| 
=|—1— Be, (*,)| =1+ Be, (x) 
= 1+ (1 — %)°+ 6x5 (1 — x) + 24. 
Fiir h->oo strebt x, von links nach 2 _ 7 und da a Be ,(x)>0O wenn 
—1 <x<1 und fiir h=1, 2,... 
1+ V5 
1+ V5 


ist, haben wir 
Jim { max_|¢, (x) — Bg ,(x)]|} 
- jim {1+ (1 — x%,)®°+ 6x9 (1 — x,) + xf} 


=14+4—2)84+684—2)+2° mit x=2-— 
+ ( ) ( )+ x= 2 7 


= K,. 


Folglich ist (25) und damit (26) bewiesen. Also ist gezeigt worden, daB x den 
in §1 angegebenen Wert besitzt. 


7. Die Konstanten x, (n=1, 2, ...) 


Es ist nun nicht schwer nach dem Muster der Konstruktion der Funktions- 
reihe {g,(x)} fiir »=6 im vorigen Paragraphen auch fiir jede der Werte von 
n=, 2, 3,4, 5, 7, 8,... eime Reihe von Funktionen zu bilden, die eine untere 
Schranke fiir die in §1 definierte GréBe K,, geben. Es laBt sich analog den 
Betrachtungen von §5 zeigen, daB diese untere Schranke jedesmal auch eine 
obere Schranke ist, so da% sie gerade gleich x, ist. Wir werden das hier fiir all- 
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gemeine » nicht mehr ausfiihrlich auseinander setzen. Die Rechnungen ergeben, 
daB der Wert fiir K,, in Tabelle 2 fiir n»=1, 2,3 und 4 jedesmal gerade gleich 
%, ist. Fiir »=1, 2,...,8 haben wir den Wert von x, in Tabelle 1 eingetragen. 
Wir méchten noch bemerken, daB fiir » = 2 der Wert 2} — y2 als untere Schranke 
fiir x, (und damit fiir x) schon friiher auf anderem Wege von F. W. Horr, Assistent 
fiir Mathematik an der Technischen Hochschule in Delft gefunden war. 
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A further generalization of the Kantorovic inequality 
By 
F. L. BAUER 


1, 


In a paper published recently [7], the WIELANDT [2] and the KAnTorovic [3] 
inequality were generalized by introducing a pair of vectors not necessarily either 
orthogonal or parallel. 

In this note, we derive inequalities which amount to a generalization of the 
Kantorovic inequality in another direction: bounds are given for the euclidean 
bound norm (the greatest’ singular value) of certain matrices of order k, formed 
from a positive definite matrix M. For k=1, the inequality reduces to that 
of KANTOROVIC. 

The general result is remarkable, since it provides non-trivial bounds for 
certain matrices appearing intermediately in elimination methods of matrix 
solution (c.f. [4]). 


2. 


We start from a reformulation of Theorem III in [7]. 
Theorem I. Let U be a unitary basis (of order k=1) for A and V its unitary 
complement, U¥U=I,, V4?V=I,_,, UU"+VV"=I,,. 
If 
|AU(U" A” AU)7U" s||/\(A%)1s] => sing 
then the following inequalities hold 
JU" s|/|s] 2 siny 
JV" s/s] S cosy 
|V"s|/|U" s| < cotg yp 


where 
cotg p/2 = x(A) cotg 9/2. 


This is obtained by putting Y= U"A~ in the original theorem and then 
replacing A! by A” throughout, which does not affect the condition of (A) 
of A. It is assumed for the following that x (A) is finite, that is, A is nonsingular. 


3. 


Theorem I states that, provided a certain projection of r can be bounded 
from below, certain other projections of s= A”r can be estimated. It is natural 
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to make sin gy maximal by choice of s from an appropriate subspace, that is 
s=A"AUy. 
Since cotg (y/2) =(A) for sing=1, it follows that 
|A¥ A Uy|/JU"A¥ A U yl s (x (A) + ¢9(A))/2 
|V* A" A Uy|/|A" A Uy] S (x2(A) — 1)/ (x2) +1) 
|V¥A" AU y|/JU" A" A Uy] < (x(A) —2(A))/2. 


But for nonsingular A also U” A” AU is nonsingular, hence y can be replaced 
by (U% A" AU) in the first and third inequality. This gives immediately, 
when A” A is replaced by a positive-definite M: 


Theorem II. Let M be positive-definite. 
Let U be a unitary basis (of order k21) arid V its unitary complement, 
U¥U=I,, ViV=I,_,, UU" +VVF= =J,. 
Then 
lub[M U - (U¥M U)*] S (x4 (M) +-4(M))/2 


lub[V¥ MU - (U¥ MU) S (x4(M) — x74 (M))/2 


where lub(Q) denotes the euclidean least upper bound norm of Q. 
The result is independent of the order of the basis U. 


Corollary IIa. Let the positive definite matrix A be partitioned 


w= (Me Mu) 
M,, M22 


where M,, is a square matrix of order k. Then 
lub (M;, Myj) = lub(Myj My.) S (x! (M) — x-4(M))/2*. 
A matrix of the form My} M,, appears in the right upper corner of the matrix 


( My; Mis ) 
0 My y—M,MiM, 


of the remaining system after & steps of a GauB-Jordan-transformation are made. 


The first inequality of Theorem II, can be expressed also for the Gaussian 
square of MU(U4 MU)~. This gives 


* The trivial result 





lub(M;} M,,) <*(M) 
coming from 
lub(M;} M, ,) Slub(M,,)/glb(M,,) Slub(M)/glb(M) =*(M), 


. (where glb(Q) denotes the greatest lower bound of Q) is therefore far too pessimistic. 
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Theorem III. Let M be positive definite and U a unitary basis of order 
k>1, U7U=I,. Then 


lub [(U# MU) U® M2U(U# MU) S (x (M) + 1)2/4x(M). 


This is the Kantorovic inequality for k=1, where the matrix in question becomes 
a scalar. 
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Some extensions of Bairstow’s method 
By 
HERBERT E. SALZER 


Abstract 


Barirstow’s method for improving an approximate real quadratic factor 
(x? px—q) of a polynomial with real coefficients which leaves a remainder 


r(x), is to determine 6 and 6¢ to satisfy 


o=r(x) + 2) 6p + 22) 64. 
One extension is to determine 6f and dg when the three second-order terms 


1 [ r(x) d*r (x) oe 
| “ape” (00)* +2 SF (60) (69) + (69)* 





are added to the right member. By taking advantage of polynomial congruences 


and the linearity in x of every Ss A , only one extra division is needed besides 
the two required divisions of Resnenonr’ s method. Another extension improves 
an approximate real quartic factor (x4— px#°—qx*—rx—~s), considering only 
terms of the first order in 69, 6g, dr and ds. This latter method may be im- 
mediately generalized for approximate real factors of any degree. By employing 
polynomial congruences, no more than two divisions are necessary in any case. 


Part I. Quadratic factors 


For f(x) a polynomial with real coefficients, an approximate real quadratic 
factor (x*?—p~x—gq) is improved to x*—(p+6p)x—(g+6g) by Barrstow’s 
method which employs the remainder r(x)=ax+b in the division of f(x) by 
(x*— px—4q), i.e., 

f(x) = (x*— px — 9) q(x) +7(x), (1) 


as well as the remainder s(x)=cx-+d in the division of g(x) by (x?—px—4q). 
The quantities 6~ and 6q are found from 


| 2) 
b+ (cq) 6p+ddq=0. 


For a very clear and concise exposition see [7], pp. 162—163. 
The essence of BAIRSTOW’s method is the determination of 6 and dq from 


O=r(x) + a“ bp + 24 a bq. (3) 
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The power and speed of the method (where the refinement is from O(e) accuracy 
to O(e?) accuracy) tempts one to seek an improvement where a single iteration 
would refine from O(e) to O(e%) accuracy. Thus after m iterations, we should 
go from O(e) to O(e%") accuracy instead of the O(e%") accuracy from BAIRSTow’s: 
method.. In this section we find 6 and dg from an extension of (3) to include 
the quadratic terms in (6), (6p) (6g) and (6¢)?, namely, 


aad 


O=r(x) + 274) oS 8p+ éq+ 





(4) 

















+4 ns ib Er). (9p) (8q) + “2. (4g). 
Differentiating (1) partially with respect to p and q, we obtain 
we “a r(x) 
= (x px—q) 22) — xq(x) + 26) , (5) 
0=(#—px—q) w L— 2 GG) 4 Oe. (6) 
O=— q(x) + (*— px —q) 0) 4 OU) (7) 
2 48) ‘o q(*) or (x) 
0= —= + (x* — p ie 9 dq? + dq? 9 (8) 
iis ne 8 as q(*) __ ee Or(x) 
pee ae eae —) Sp eq Op oq” (9) 


(Of course, (5) and (7) are identical with WILKINSon’s pea in [1], p. 162.) From 


(7) and (8), it is apparent that — : 7) is the remainder when 2 - ais) (itself twice 





the quotient in the second division of the Bairstow method) is again divided 
by (x*—px—gq). From (5), x x is the quotient when x q(x) is divided by 
(x? —px—q), so that from (9) it is apparent that - ba is next obtainable as 
the remainder when “a +x 2 290) is divided by (x? — * px —q). Finally, from 
(6), - ae is seen to be the remainder when 2 x - “aS ) is divided by (x? —px—q). 





The above direct approach is thus seen to involve, in general, four additional 
divisions by (x*—~x—4g) besides the two divisions in BAIRsTow’s method. If 
carried out that way it is likely to involve more work than two successive appli- 
cations of BAIRSTOW’s method, without much chance for greater accuracy. But 
by taking advantage of congruence relations and the linearity of every partial 
derivative of r(x), similar to the approach of WILKINSON in [1], p. 163, we can 
reduce the number of extra divisions from four to only one, in the following way: 


First divide 2 “ai (itself twice the second quotient in BArrstow’s method) 


by (x* — px —q) to obtain this remainder: 


Or (x) 


aq? =ex+f. (10) 
Then from (5) and (7), 
S.. 
0 = (x*— px — q) (“s8) — x ts), 4 “oe — ¥ te : (41) 


9* 
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or (x) Or(x) _ : Or (xy 
from which iam =—c(x*—px—gq), since —“- =s(x)=cx+d, 
so that - oq oq 
oq(*) _ , @q() 
i ake x*—— +. (12) 
But subtracting (9) from (12), 
2x 24's) ten mod (x — px — q), (13) 
and from (8), 
2% “ate +esx—— ae + cmod(x2— px —q), (14) 
from which 
2 
ope =ex*+fx+cmod(x*—px—4q). ; (15) 
Then finally, from (15), 
SG) = (ep +N x+ (eq +0). (16) 
To find — ae from (6) and (9) we first get 
fs a 
— 2x2 “40. +2 eee i = 0mod(x*— px —q). (17) 
Then subtraction of x* times (8) from (17) yields 
eo i Br(x%) r(x) __ 
| x8§—_\' 4.2% ap aq apt = 0 mod (x? — px — q). (18) 
From (10), (16) and (18), if Ne =gxt+h, 


—ex-+ (2ep+ f) x*+ (2e¢g+ 2c —g)x—h=(ax+)(x*—px—@q), (19) 
from which it is apparent that «c=—e, B=ep+/, g=2c+eq+ep?+P/ and 
h=q(ep+f), or finally 


Te =Rcteqtep + pet gep +N. (20) 


Since, as shown by WILKINSON [1], p. 163, 
=cx-+d from (4), (10), (16) and (20), 
O=a+ (ch+d) dp+c6q+ 3(2c+ eg + ep? + pf) (6p)? + 

+ (ep + f) (60) (69) + #e(59)*%, ¢ == (24) 
O=6+ (cq) 6p +469 +39 (ep + f).(6D)* + (eg + ¢) (5D) (59) + 37 (59)*. 


dr (x) a 


op 








=(cp+d)x+cq and 


The quickest way to solve the simultaneous quadratic system (21) to within 
error of the same order of magnitude as that due to the neglect of higher order 
terms in (4), appears to be by (usually two) successive approximations. Thus 
the unmodified Bairstow values of 6p and déq from (2) are substituted into the 
quadratic parts of (21) and the resulting linear system in 6 and dq is merely 
the Bairstow system (2) again, for slightly modified a and }. This operation 
may be repeated when necessary. 
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Several numerical tests on 10‘ degree polynomials, where the roots were 
required to nine-decimal accuracy from around two-decimal first approximations, 
showed considerable saving of labor by the present method. For polynomials 
of very high degree, three Bairstow iterations or two iterations by the present’ 
scheme, each involving the same number (six) of divisions of nearly equal length, 
there is improvement from O(¢) to O(e*) by the former, or to O(e%) by the latter. 
The relative improvement of this extension over BAIRSTOW’s method seems 
greater for polynomials of lower degree. When properly arranged, this extension 
presents no additional complication. The author recommends this extension, in 
general, as preferable to BAIRSTOW’s original method. 


Part II. Quartic factors 


Another way to extend Bairstow’s method is to find real quartic factors by 
successive refinements of an approximate quartic factor (x4 — p x8 —qx*—rx—s). 
From the. quartic factors, one may solve for all roots directly, using a recently 
published table [2] to facilitate the solution of the resolvent cubic. It appears 
to the writer that this quartic extension (taking into account only the terms 
that are of the first order in 6~, 6g, 6dr and ds) may involve more work for each 
quartic factor than Barrstow’s method for two different quadratic factors. 
However, it is mentioned here for .its possible mathematical interest. 


Starting from 
f (x) = (A — px8 — g@x*—rx —s) q(x) +7(x), (22) 


where the remainder r(x)=ax°+bx*+cx+d, by partial differentiation with 
respect to s, 7, g and # respectively, 


Or (x) = Ayx?+ By x*+Cyx+ Dy= q(x) mod (x4 — px8— gx*—rx—s), (23) 


PA) — Ay x8 + By x8 +C,x4+D, = x9 (2), (24) 

oe = A, 28+ B, 22+ C,x%+D,= x*q(x), (25) 

OV(2) _ Ay x8 4+ By a? + Cy x + Dz = x9 q(2). (26) 
ap 


From (23)—(26), 
x(A, x + B, x* + C, x + D,) = Ay41 x8 i By a1 x* a Chat x + Dy 41, (27) 


r=0, 1, 2, 

giving 

A,..=8B,+A4,>, Byip=C,+ 4,9, Cri. =D, + A,7, D414 =A,S, (28) 
gy = 0, 1, 2*. 


* The use of (27) and (28), which shortened considerably the author’s original 
presentation, was suggested by the referee. 
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Thus the elements A,, B,, C, and D, may be obtained recursively, starting 
from Ay, By, Cy and Dy, which, from (23), are seen to be the coefficients of the 
remainder when g(x) is divided by (14 — px* —qx*—rx—s). 

We find 6, 6g, dr and és which makes r (x) + oe Op tee + ae) éds=0, 
as the solution of the following linear system in four unknowns: 

a+A;6p+ A,6¢+A,6r+A,6s=0, 
c+ C,66+ C,6¢g+ GC, 6r+C,ds=0, 
d+D,6¢+ D,6q¢+ D,6r+ D,6s=0. 

This method is obviously applicable to the.more general case where the 
approximate real factors are of any degree. It is never necessary to do more 
than two successive polynomial divisions. 





(29) 
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Verbesserung einer Fehlerabschatzung fiir gewéhnliche 
Differentialgleichungen erster Ordnung 


Von 


JOHANN SCHRODER 


In einem vor kurzem erschienenen Aufsatz! wurde iiber Fehlerabschatzungen 
bei Anfangswertaufgaben 
a=F(t,u) fir 4<t<T, ult) —% 
berichtet. Diese Abschatzungen gehen von den Defekten 
a, (t) = — 9, + F(t, y) 
bestimmter Polynome q, (#) aus, welche die Lésung u*(¢) in den Teilintervallen 


; Ty = [tea tesa] (k= 1,3,...,2K — 1) 
mit 
t=t+ih, h=t=*% (¢=0,1,2,...,2K) 
t 2K a 59 = , 
approximieren. In der praktischen Rechnung wird dabei jeweils nur eine kon- 
stante obere Schranke J; fiir den Defektbetrag | d, (¢)| in J, benutzt. 

Man kann den Defekt jedoch auch genauer erfassen. Wir zeigen hier, wie 
man dazu einige Formeln aus A zu andern hat. Dabei wird dann nur ein Teil 
des Hauptprogrammes ein wenig umfangreicher. Praktisch kann man im kon- 
kreten Fall genau so vorgehen wie in A beschrieben. Diese Rechenvorschrift 
aus A laBt sich sogar beziiglich der Abrundungsfehler noch vereinfachen: Man 
braucht sich um die Abrundungsfehler bei der 20stelligen Berechnung von F(t, y) 
nicht zu kiimmern,. wenn man nur sicher ist, daB nicht mehr als die letzten 8 
Stellen falsch sind. 

Allgemein erhalt man mit dem verbesserten Verfahren erheblich genauere 
Fehlerschranken. Sie sind bei unseren Beispielen etwa halb so groB wie die in 
A angegebenen. Bei den Naherungsverfahren zweiter Ordnung fiir die Aufgaben 
1 und 2 iibertreffen die Schranken die Betrage der wahren Fehler jetzt nur um 


wenige Prozente. 


1. Neue Formeln zur Berechnung der Fehlerschranken 


Die Formeln in den Abschnitten A, 1 bis A, 3 werden fiir das verbesserte 
Verfahren ohne Anderung tibernommen. Lediglich die in Abschnitt A, 4 be- 
schriebene Methode zur Gewinnung der Fehlerschranken ¢, wird abgedndert. 


1 SCHRODER, J.: Fehlerabschitzung mit Rechenanlagen bei gewéhnlichen Diffe- 
rentialgleichungen erster Ordnung. Num. Math. 3, 39—61 (1961). Diese Arbeit wird im 
folgenden als A zitiert. Auch die hier verwendeten Formelnummern aus A erhalten 


ein A zur Kennzeichnung, z. B. (A, 3.1). 
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In der Bedingung (A, 4.1) (mit von ¢ unabhangigem F) 


|4,()|<%,—w,[F'(y,) +F,(w,)], w(t) 20 preayes ce 


Ep_-1 SW, (ty-1), 


(4.4) 


fiir die Fehlerschranke 





w, (t) = w, [T,] (x -_ =) 


ersetzen wir F’(t, p,) wieder durch die obere Schranke y;=y, aus (A, 4.2), jedoch 
| d, (t)| jetzt nicht durch die Konstante J; aus (A, 3.10), sondern durch eine Funktion, 


7, (t) =7,[T,]: . 


nt] == (1—r) AL, + 4 (1—2)|t] + 3 (1-2) |x| N, 





1 2 
—_—fF 
4 





mit :. und M, aus (A, 4.13) und N,=h5 ®, aus (A, 3.8). Nach Abschnitt A, 3 gilt 
I4,Q|<4QSf, (ha StS ty 41). (1.2) 


In der fiir (1.1) hinreichenden Forderung 





—~h dt 


r,{r<t om — wv, [y +h (w,)], w,(t]=0 (—i1s7S1), | 1.3) 
Gis w,[— 1], 


wird zunachst F, (w,) vernachlassigt. Als optimale Lésung der so linearisierten 
Ungleichungen ergibt sich 


wy [T] = ea +S (e-1 cy + hr, [o)) elt) dg (1.4) 
mit 
& = hy. 
Wir wollen nun die GréBe w?[1] abschatzen, da wir entsprechende Formeln 
spater benétigen. Es gilt 


w(t] = eat Re+ Sp 
mit 
1 


Re= J (ex,-168 + 4%, [0]) (1+ (1 —9)) do, 


1 


St a J (e168 +47, [0]) x[eR(1 — 0)] do 


rs | 
und 
x(a] =e*—1-—«. 


Da 7, [7] eine in t gerade Funktion ist, berechnet man leicht 


Ry = 2(&-1 ce +hG,) (4+ cp) 
mit 


1 
G= + [ nloldo= 49 2,40, + 29M, (1.5) 
-1 


46080 














Pl ek 5 
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Ferner schatzt man wegen y[«]=0 (—co<a<oo) mit (1.2) ab: 


1 , 
SRS Defxul[kUi-—o)]do mit Di=«e,_, +h. 
at 


Daraus folgt 
S{s0 imFalle D&<o. 


Ist D?>0, aber cf<0, so ergibt sich wegen y[«]<4a? (—co<a<0) 
1 
SRS DE f J (ch)*(1 — 0)*do = Dy * (ef) 
-1 
Fir c?>0 erhalt man schlieBlich unter der Voraussetzung 


<2 (1.6) 
fx —o)|do= + (cf)? f + - (2c?) + 7 (209)? + +] 


<$ elt+ 2+ (F)P4--] 


Alle Falle zusammenfassend hat man damit fiir c} <2 die Abschatzung 
we [1] S efy, 
mit 


chia = &x-a t+ 2(€y 16h + G,) (1+) +max (Df, 0) 5 (q)*-max (1,75). (1.7) 


Um eine Lésung der nichtlinearen Ungleichungen (1.3) zu erhalten, benétigen 
wir eine obere Schranke # fiir w{[t] (—1< 11). Aus (1.4) ergibt sich mit 
(41.2) fir c?<o: 


t 
we[t] S &-1 + DBs eo doSe,_,+2max(D?,0) (—1S1S1). 


Fir c{>0 wird w[r] durch w[1] majorisiert, welche GréBe wir unter der Ein- 
schrankung (1.6) bereits oben durch ¢f,, abgeschatzt haben. 


Insgesamt hat man also wf [rt] <8? (—1S7S1) mit 


‘ (1.8) 


F €,—, + 2 max (D?, 0) fir c?<0, 
Degen $2 (p12 + 4G,) (14+ c?) + Dy (c2)2 ree fir 0<ci<2. 


Diese Zahl 9 ist zu berechnen. 
Im zweiten Schritt werden dann die Ungleichungen gelést, welche aus (1.3) 
entstehen, indem man die eckige Klammer in (1.3) durch 


yi = y, + F, (28?) (1.9) 
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ersetzt. Die zugehérige optimale Lésung w}[t] hat die Form (1.4), nur ist iiberall 
der obere Index 0 durch 1 zu ersetzen. Gilt unter der Voraussetzung c}< 2 fir 
die entsprechend (1.8) gebildete Schranke 9} von w}[T] 


HS 20, (1.10) 


so ist w,[t]=w}[z] auch eine Lésung des Problems (1.3). 
Es gilt dann also die Fehlerabschatzung 


| , (t) — u*(t)| S wu, (t) = w, [7;] (4-1 St¢St, 41), 
insbesondere 


Vera — u*(t,+1)| S & 41, 


wobei &, ,; = €}4., die entsprechend (1.7) berechnete Schranke fiir w} [1] bedeutet?. 


2. Weitere Anderungen 


Im Rechengang (des Maschinenprogramms) bleibt der Teil I erhalten. Ferner 
ermittelt man wie in A: L,, M,, ®,, I, und yf. (Jedoch ist jetzt nur cjy=hyf <2 
statt hy?<1 zu priifen.) AnschlieBend werden bei dem hier beschriebenen ver- 
besserten Verfahren dann folgende GréBen berechnet: G, aus (1.5), 8% aus (1.8), 
ch=hy} aus (1.9) (Priifung cj-<2), #{ entsprechend (1.8) (Prifung #}< 208%) 
und &41=& 41 entsprechend (1.7). 

Bei Beriicksichtigung der Abrundungsfehler (entsprechend Abschnitt A, 5) 
erhalt die Schranke 7,[1] fiir den Defekt noch einen Summanden 


s(t] =| 5 |(@ + 5) = (e— 3) —1)| +4] +1)( Se : se + 
+ Bln (es s)e(e— 3) 


mit der Zahl jy aus (A, 5.3): Entsprechend ist G, dann um 
1 
+ [ sloldo= zp o und J; um py: mar s{ 3 <S1,2y zu vergréBern. 


In A wurde statt dessen die grébere Schranke 3, zu J; addiert. Im iibrigen 
werden die Abrundungsfehler in derselben Art erfaBt wie in A (zur praktischen 
Durchfiihrung s. jedoch unten). 

Die theoretischen Uberlegungen zur Genauigkeit der Abschatzung bleiben im 
Prinzip erhalten. Es sei hier nur darauf aufmerksam gemacht, daB die Ver- 
besserung der Schranken ¢, im wesentlichen dadurch zustande kommt, daB man 
an den numerisch entscheidenden Stellen G, aus (1.5) statt J; aus (A, 3.10) 
benutzt. Die einander entsprechenden Summanden von G, und J; haben in a 
dieselbe GréBenordnung, jedoch ist G, numerisch erheblich kleiner. 

Der Abschnitt A, 7 iiber die praktische Durchfiihrung der Abschaétzung im 
konkreten Fall kann fiir das verbesserte Verfahren wortlich iibernommen werden. 
In den meisten Fallen kann man jedoch die Beriicksichtigung der Abrundungs- 
fehler noch-vereinfachen. Es wurde schon in A erwahnt, daB die nach Abschnitt 





2 An dieser Stelle wird also die Formel (1.7) nicht nur fiir den Fall cf >0 bendtigt. 
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A, 7, B 2) zu ermittelnde Schranke yw sehr grob sein darf. Diese Zahl erfa die 
Abrundungsfehler bei der 20stelligen Berechnung von F(é, y) in der Festkomma- 
darstellung (10—P, 10+ P). Verwendet man nun, wie wir es getan haben, 
My=6-10~"*” statt wy=5-10~% t+, so kann man pw=O0 eingeben, falls 


bh < 2,7 2 407(P+2) 


ist. Durch dieses zu groBe wy werden dann namlich auch die bei Berechnung 
von | und M, auftretenden Abrundungsfehler von jeweils héchstens 2 mit 
majorisiert. Praktisch heiBt das also: 

Wenn man sicher ist, daB die berechneten 20stelligen Werte F(t, y) héchstens in 
den letzten 8 Stellen falsch sind, kann man u=0 eingeben. 


3. Numerische Ergebnisse 
Wir behandeln wieder die Aufgaben 





1, Gita Ol cer fe nates she saat u(0) =0 (Exakte Lésung: 


it+¢ ' (1+2)?’ 


1 
2. =u? +3—(14+2)3, u(0) =0 ut =1+4— 1), 
3. t+ =cos =u +sin = t, ; u(0)=0, 


4.%=|1+u%, u(0)=0 (exakte Lésung: u* = sh?) 
und fiihren die verbesserte Fehlerabschatzung fiir einige der in A benutzten 


Naherungsverfahren durch. In den Tabellen1 bis 5 bedeutet 6, den wahren 
Fehler y, — u*(t,). 


Tabelle 1. Aufgaben 1 und 2, verbessertes Euler-Cauchy-Verfahren mit h=0,02 
Aufgabe 1 Aufgabe 2 
seit : —— 





&% 








k ty 
& & 





| 
20 0,4 0,000 116012 0,000 119344 0,000 089676 | 0,000 091 604 





























40 0,8 214557 220 366 0,000 27625 0,000 286 71 
60 1,2 339267 348 230 986 94 | 104262 
80 1,6 516476 529983 488168 | 525977 
100 2,0 0,000 776676 0,000 796 892 0,034 605 55 + 0,03845009 
Tabelle 2. Aujfgabe 1, Runge-Kutta-Verfahren Tabelle 3. Aujfgabe 2, Runge-Kutta- 
mit h=0,1 Verfahren mit h=0,1 
k | & & els | & | & 
20} 2 0,000018 793 0,000 027 634 4 | 0,4 | 0,000000200 |0,000001 599 
40| 4 139297 204 662 8 | 0,8 | 0,00000121 |0,000006 34 
60; 6 1029 367 1512377 12 | 1,2; 896 2920 
80; 8 0,007 606072 | 0,011175165 16 | 1,6 5027 16709 
100] 10 | 0,05620162 | 0,08257468 —20 | 2,0 36574 131047 
120} 12 0,41527632 | 0,61015421 24 | 2,4 | 0,00369559 |0,01463023 
140| 14 3,06849532 | 4,50850250 
160| 16 22,673 24931 33,313 86200 
180| 18 | 167,5336542 | 246,1674500 
200} 20 | 1237,913671 | 1818,960400 
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Tabelle 4. Aufgabe 3, Runge-Kutta- 
Verfahren mit h=0,1 


Tabelle 5. Aujfgabe 4, Runge-Kutta- 
Verfahren mit h=0,05 














k 4 | Yp & k | th — | & 

4 | 0,4 | 0,486027392 | 0,000001 308 4 0,2 0,000000004 | 0,000000006 

8 | 0,8 | 0,962455 563 2535 8 | 0,4 6 10 

12 | 1,2| 1,273284 822 2857 12 | 0,6 7 15 

16 | 1,6] 1,384858949 2296 16 | 0,8 6 20 

56 | 5,6| 1,463060481 | 0,000001 101 20 | 1,0 6 28 
36 | 1,8 | 0,000000053 | 0,090000143 
52 | 2,6 0,00000033 | 0,00000065 
68 | 3,4 132 232 
84 |.4,2 425 714 
100 | 5,0} 0,00004243 | 0,00002020 
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Ein Differenzenverfahren zur naherungsweisen Lésung 
des Anfangswertproblems fiir Systeme halblinearer 
‘partieller Differentialgleichungen 1. Ordnung 
Von 
RUDOLF ALBRECHT und WOLFRAM URICH 


§ 1. Einleitung 

In der vorliegenden Arbeit wird ein Differenzenverfahren zur Lésung des 
Anfangswertproblems fiir Systeme von m halblinearen partiellen Differential- 
gleichungen 1. Ordnung mit m abhangigen und + 1 unabhangigen Veranderlichen 
im Reellen angegeben. Mittels des Verfahrens wird eine hinreichende Bedingung 
fiir die Existenz einer Lésung des Anfangswertproblems erhalten, die in gewissen 
Spezialfallen leicht nachpriifbar ist. Ist diese Bedingung erfiillt und besitzt das 
Anfangswertproblem héchstens eine Lésung, so konvergiert das Verfahren bei 
abnehmender Schrittweite gegen eine Lésung. 

Das Naherungsverfahren beruht auf folgendem Grundgedanken: Ist das ge- 
gebene System 


out 
ae + Ginlt, x) = b;(t, x, u) (4.4) 
mit i=1,2,...,m; k=1,2,...,m; v=1,2,...,”; af,+0; det(a?,)+0; x= 
(x1, ..., x"), u=(u},..., uw”), so kann es geschrieben werden: 


k 
as, (SP) an a= 0,06, %, #) 
mit 
dut out Buk aiiny(t, *) 
(Sr dt hey ™ Ot “v ax” ay . 


Fiir eingeklammerte Indizes soll die Summationsvereinbarung nicht gelten. 


(SF) ist also die Richtungsableitung in die durch 


dv _ Sib) y 42.0, (1.2) 


dt af) 


gegebene Richtung. Die Funktionen «*(x) seien beliebig vorgegeben. Dann ist 

im Aufpunkt (1, 6), 0<t)<t, der Wert u*(z, &) einer Lésung u*=u*(¢, x) von 

(1.4) gesucht, fiir die lim u* (t, x) =a" (x) ist. Zur naherungsweisen Lésung dieser 
$ 


Aufgabe werden die durch den Punkt (r, &) gehenden Integralkurven x”= x/;,) (t,t, &) 
des Systems (1.2), die wir ,,Quasicharakteristiken™ nennen, ermittelt. Die Diffe- 
rentialquotienten (d u*/dt) ix) werden durch Differenzenquotienten 


(t; &) — U* (To; X ik) (Tp, T, é))} 











132 Rupo.tF ALBRECHT und WOLFRAM URICH: 


ersetzt und das hierdurch aus (1.1) entstehende lineare algebraische Gleichungs- 
system fiir die Werte U* (zr; &) gelést. Dabei wird angenommen, daB U* (0; x) =a*(x) 
ist bzw. U*(z,; x) fiir t)>0 durch frithere Schritte des Verfahrens bereits bekannt 
ist. U*(z; &) wird als Approximation von u*(r, &) beniitzt. 

Im folgenden §2 wird das Verfahren im einzelnen beschrieben und es werden 
Untersuchungen zur Konvergenzfrage durchgefiihrt. In §3 werden Bemerkungen 
zur praktischen Ausfiihrung der Methode sowie drei Beispiele zur Erlauterung 
angegeben. Im letzten dieser Beispiele wird gezeigt, wie sich das Verfahren auf 
Anfangs-Randwertprobleme ausdehnen l4Bt. Die einfachen Beispiele 1 und 3 
kénnen ohne Kenntnis der in §2 beschriebenen Einzelheiten gelesen werden. 


§ 2. Das Naherungsverfahren 


Mit’ X", T bzw. U™ sei jeweils der n-{ 1- bzw. m-dimensionale Euklidische 
Raum der Punkte x= (x!, x?,..., x”), t=(é) bzw. u=(w’, u?,..., wu”) bezeichnet. 


Ferner bezeichne & den in T x X” gelegenen Kegelstumpf y (x”)?— M (d —t)*<0, 
wobei 0StSé6<d; 0<6; 0<M; d, 6 und M ‘tsindishlte anid: ® ein konvexes 
Gebiet in T xX", so daB Rc G; ¥X das durch y (x”)?—- Md?<c, 0<c, gegebene 
Gebiet in X”, wobei c eine Konstante ist; @, die abgeschlossene Kreisscheibe 


¥ («’)2— Mado in X". 
vy=1 


Fiir k=1, 2, ..., m seien auf X die Funktionen 
u*(x); — a* (x) €C1(X) (2.1) 
vorgegeben?. Ferner sei U= {u | | w* — u*(x)|< S, xENy, R=1, 2, ..., m}, wobei 


die Konstante S so gewahlt sein soll, daB U=+ 9. Dann ist U ein Gebiet, dessen 
AbschlieBung mit Ul bezeichnet sei. 

Wir betrachten das Differentialgleichungssystem (1.1) mit folgenden Voraus- 
setzungen: 
K 1: die a?, sind von Null verschiedene Konstante, det (a?,) +0; 
K 2: auf & sind die Funktionen a}, (¢, x) definiert und € C*(@); 
K 3: auf & xi sind die Funktionen };(¢, x, u) definiert und €C!(6 x1); 


K4: sup, {3 (aia(t))*} < (ah) (t+). 


t,k=1,2,...,m 
Das gestellte Anfangswertproblem (P) lautet: gesucht ist in R fiir 0<¢<6 eine 
Lésung u*=u*(t, x) von (1.1), so daB lim ut (t, x) =a" (x). 
Mit unseren Annahmen hat das System gewoéhnlicher Differentialgleichungen 
(1.2) durch den Aufpunkt (rt, €) =(r, &, &, ..., &"), (x, &) €G, genau eine Lésung 


x” = Xt») (t, t, &) 
t 


=F +a | aian(t *) a0 (2.2) 


(+k) 





Mit C’ (B) ist die Menge der reellen Funktionen bezeichnet, die auf dem Bereich 8 
stetige partielle Ablejtungen bis zur r-ten Ordnung einschlieBlich besitzen. C(%) ist 
die Menge der auf 8 stetigen Funktionen. 
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in & [1; S. 141, 135]. Diese hat in © folgende Eigenschaften: 


E 1: Xi k) (t, T, é) = &’; 
E 2: x(;)(¢, t, €) ist stetig und hat stetige partielle Ableitungen 1. Ordnung 
beziiglich aller Argumente [1; S.150, 155]; 
Oxtiny (7, €) , er Gin (t, €) OAtiny (t,t, &) 
1 pe p> atin) og? 
E 4: fiir (r,é)€R, OStSr, ist (¢, xq) (6, t, €)) ER; 

OX(: py (t, T, €) » | O%Géay (t,t, €) Ain) (To, §) 
ES: Ox (im (h 8) _ oy Shen 2 8 | — _ Min (to, 6) 
7 *)—> (To te) aga 4 ot (To, Tor) aes 


=0 [1; $.155]; 





E 3: 





Beweis von E 4. Angenommen, E 4 sei nicht richtig. Dann gibt es einen 
Punkt (é, Xiay(t, T, é)) €@, der nicht in & liegt. Aus dem Mittelwertsatz und K 4 
folgt 











Mt zane O—( OM 1 Se, we fo 
tt «Tah | yz [atin (t' Xam (t’, 7, €))]? 
</14+M. 


=t+8(r—2) 


Damit ist 
1+ DS (xy (8) —&)2S14M. 


(s—8)" St 


_ Also gehért der Punkt (¢, x;;4)(¢, t, €)) dem in @ gelegenen Kegel 


v(x — ey < Mt 0), O<t<r, 


v=1 
an im Widerspruch zur Annahme. 


Oxtipy (t,t, &) « ‘ . , OX¢:R) (To, To» §) 
(ik) betel Ae dhe 
seats amine ist nach E 2stetig. Nach E 1 ist DEA 6%. 


Hieraus und mit E 3 folgt der zweite Teil von E 5. 

Nun teilen wir das Intervall [0, 6] in N gleiche Teile durch die Punkte t=ch, 
h= + o=0,1,2,...,N. Fir ein gewahltes festes N und fiir (r, &) ER sei die 
zugehorige Naherungslésung Us (rt; £) des’ Problems (P), als Funktion von t und & 
betrachtet, 

Us (t; é) => a® fal. UL (ch; Xi 7) (a h, T, é)) +- b,(o h, é, Uy (ch; é)) (t am ah)} 
fir cho ts(o+i1)h, o=0,1,...,.N—1, (2.3) 
Us(0; &) =a (é). 
Dabei bedeutet («**) die zu (a?;) inverse Matrix, die infolge K 1 existiert, und 
es wird angenommen, daB fiir das gewahlte N die Forderung 
K 5: Us(oh; EVEN falls (ch, E)ER 
erfiillt ist. Die Funktionen U,j(r; €) haben folgende Eigenschaften: 
U1: U(r; &) ist definiert und stetig auf &. 

Beweis. 1. Sei fest, Uj (oh; é) stetig fiir (oh, &)ER, und seich<t< (o+41yh. 
%i4)(oh, t, €) ist stetig auf & (E 2) und (ch, x;,)/oh, , &)) ER (E 4). 5,(t, &, u) 
ist stetig auf © xl. Nach K § ist (ch, &, Uy (oh; €))€ Gx. Also ist US(r; é 


Beweisvon E 5. 
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stetig fir coh< rt (o+1)h, (rt, &) ER. Ferner ist lim Uy (x; ) = Uf (ch; &), also 
ist U(x; ) stetig fir cohorS(o+1)h, (1, &)ER. 

2. U# (0; &)=«#* (&) ist nach (2.1) stetig fiir (0, £)€R. — Vollstandige Induktion 
beziiglich o ergibt U 1. 





h (e- 
U2: aad ‘) ist definiert und stetig auf &. 
Bewets. 1. Seio fest, bie ted y=1,2,...,m, stetig fir (ch, £) ER, und | 


sei oh<tS(o+1)h. (ch, %;;)(oh, t,€))ER (E4) und xi, (ch, 1,€) sowie 
ext tet ™§) sind stetig auf @ (E2). Nach K5 ist (oh, €, Uy(oh; £))€OxU 
und nach K 3 hat b,(ch, &,') stetige partielle Ableitungen auf © x1. Damit ist 

















UN (t; &) — gti \a%, aUL (oh; xi ;)(0 h, t, &)) Stn 4 
og ij . ax (ii) (2.4) 
0b; (ah, &, Un (oh; &)) x 5 so é) h 
+ ag a aUh (t —oh) 


definiert und stetig fiir oh< tS (o+1)h, (t,&) ER. Ferner ist 
. aU (t; €) e aU (oh; &) 
ak ae oe 
und weil der Ausdruck [...] im abgeschlossenen Gebiet (t, ) €®, ch tS (o+1)h, 
u€U beschrankt ist (K 3). 

2. = © ad ee ist nach (2.1) definiert und stetig fiir (0,&)¢R. — 
Vollistandige Induktion beziiglich o ergibt U 2. 

Unter der Annahme, daB das Problem (P) auf & eine eindeutig bestimmte 
zweimal differenzierbare Lésung hat, daB die Naherungen (2.3) auf & definiert 
sind (d.h. K 5 gilt) und zweimal nach den &” differenzierbar sind, und daB die 
Funktionen xii) (¢, t, €) zweimal nach t differenzierbar sind, gilt fiir (r, &) €&, 
oh<ts(o+1)h, bei i ee des Taylorschen Satzes: 


u(r, 8) =u (oh, £) + 2 (oh +0,8) (c—oh) +4 24 (oh +. 8(e oh), &) X 
x (r—ch)*, O0<0<1, 


wegen E 1, 2, 3, 5 




















P P aut h; , h, 
Us (c; 8) =a {al, [Uh (oh; &) + td §) (— S002) (¢ — oh) + 
(#7) 
EM hw.) Lt mi j(oh, t’, §)) Ox%;) za) 4 
2 Ox bj) 2/54) or 
BUR (oh; x45) (oh, tr’, &)) a xtiy - 8 
? oxi. Or'?. v=oh+0(t—ch) (r oh) | + 


(#7) 


+ b(ah, &, Uy (oh; §)) (ro), 0<O0<1, 
= Ut (oh; &) + 208 Uh (oh+0; 8) (r—oh) + 


1 pio _oU Oat Orb; 
a I te 44 ax. oF’ or’ + 


454) 2 (#7) 


aU (ahi ale % 8) Oat (coh)? 





axi;) or? Fe S)6 








A! 























Lif 
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wobei 


hs aU 


(ch+0; é) =a" | — ai (BA; é) — 7 (Oh; E) +8; (oh, E, Uy (oh; é)) 
ist nach E 1, 2, 3,5. Damit erhalten wir Pie Abschatzung: 


| u* (x, é) — Uf (x; | S a &) — Ux (oh; &)| + 











+ [24 (oh +0,8) — 2ON (6 h +0; 8)|(c—on) +4| 2" oh+0n,8)— (25) 
—a** ad, - __ #Uy oat sal) 4 OUR (oh; G5) (oh, v’, ie 
xk, Oxh, Or’ i 
Bxb4) 


x (t —ah)?. 








or’? a, 


Ist insbesondere u* (ah, £) = Uz (ch; &) fiir (oh, &) ER, dann ist auch = (oh+0, &) 


h 
= se (oh+0; &) und aus (2.5) folgt 








| u* (x, €) — Up(x; &)| < (cee = ~ (ch+8(t —oh),€é) — 








us (oh, xG3)(oh, tv’, Ox... axt 
at® at, |= a G7) §)) agit sth we (2.6) 
8x64) 0x64) Ot 


dui (oh, x 5)(oh, t’, €)) Pp) 
oxi. Or’? |¥=0h+0(r—ch) 








+ 


(2.6) besagt, da& unser Verfahren die exakte Lésung ergibt, falls fiir alle x, A,i,k 


Buk (t,x) , 8 uk (t, x) 
= auf & fiir ¢>0, aor =O auf & gilt und die a}, konstant sind. 


Uber die Konvergenz des Verfahrens im allgemeinen Fall beweisen wir 


Satz 1.. Die Voraussetzungen (2.1), K 1, 2, 3, 4 und fiir jedes N die Voraus- 
setzung K 5 seien erfiillt. Das Anfangswertproblem (P) besitze auf & héchstens 








k 
eine Lésung. Die Funktionen — (t; x) seien fiir alle » und k auf & beziiglich 


N gleichartig stetig. Dann konvergieren die Funktionen U,(t; x) fir Noo 
gleichmaBig gegen _ Lésung von (P). 


er 1. Die 22" S(t; €) sind beziiglich N gleichartig beschrankt: Fiir jedes 





N ist 22% oF (0; §)= ca 2 . Fiir ein beliebiges festes e>0 ist auf & 


ot v8 


(r*; €*) — —> (t; 6) |<e falls |\(r*, &*) — (x, €)||< 6(z, 6, €) 
suilede von N. Fiir : &)€R und festes «> 0 gibt es ein kleinstes 6, 4,,;,(€) > 0. 
Andernfalls existiert eine Folge {(t,, ¢,)}, y=1, 2, 3, ..., so daB die Folge {5(r,, &,)} 
gegen Null konvergiert. & ist kompakt in sich, also konvergiert eine Teilfolge von 
{(z,, &,)} gegen (t,, &) ER, so daB |l(r*, &*) — (rt), &q)|| =O sein miiBte fiir 


se (<*; &*) ~ (T9; &0)| <e- 


Numer, Math. Bd. 3 10 
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Dies ist ein Widerspruch. — 8 ist konvex. Der Durchmesser von & sei S din (€), 
n eine natiirliche Zahl. Deshalb ist fiir beliebiges (t*, &*) ER 


| Ges |— [Ze Pyke (x; er) — SE cen 


<Neé, 














also 
pe OUN (es; g)| < 


oe 





our 
(een ax, {| Se )]} MB 
unabhangig von N. | 
2. Die Us (rt; €) sind ebenfalls auf & beziiglich N gleichartig beschrankt: 
- Wir beniitzen eine andere Darstellung von (2.3) durch Anwendung des Mittel- 
wertsatzes und erhalten 





hie £) — Ukiah: ati ao OUR (oh; xij(oh, r’, &)) Oxf 
Use; &) = Ute h; &) + {aM af, | ali terre a 
+a! b, (oh, & Uy(ah; &))}(e— oh), 0<8,<1. (2.7) 


Daraus folgt wegen der gleichartigen Beschranktheit der 0 Uj/0x’, K 3 und E 2, 
daB | U§ (rt; &) — Us (oh; &)|S Kh ist mit von (rt, &) und N unabhangiger Kon- 


stante K, und 

| UR (©: 81 S max {la O) + Ko. 

3. Fur (r, &) €& erfiillen die Uj (rt; &) eine beziiglich N gleichartige reste4 
Bedingung beziiglich £: Die partiellen Ableitungen beziiglich , y=1,2,. 
sind gleichartig beschrankt, (t, £) gehért dem konvexen Bereich 4 (&’)? — M(6— . 
SO an. 

4. Fiir (r, €) € ® erfiillen die U,}(r; &) eine beziiglich N gleichartige Lipschitz- 
Bedingung beziiglich t: Sei oh tS(0+1)h, ot hSt*S(0*+1)h, r<1*. Dann 
ist nach (2.3) und (2.7) 
| Un (r*; &) — Uy (e; &)| 
{---}eroree—nl (t*— 1) fir phor<t*s(o+1)h, 

It-- Je+overna—x) [(o + 1) h — t] + f.--}eersyn4-d(e*—ce+na) [t* — (0 + 1) A]| 
fir phStS(e+1)hSt*sS(0+2)h, 
I{-- }e40(e+ma—z) [(Q + 1) 4 — T] + {-.-Joenzocee—orny [t* — O* A] + 

-1 


o* 4 
+E Af Jose! fi ghsrs (e+ t)h<gthsrs (ot +1)h 


** 
S K(t* — 1), 
wobei {...} den Klammerausdruck in (2.7) bedeutet. 
5. Aus 3. und 4. folgt, daB die U(r; &) beziiglich N gleichartig stetig auf & 
sind. 
6. Die Funktionen Ug(r; &) und 20% we (x; 8) sind also auf @ gleichartig be- 





schrankt und gleichartig stetig. Nach dem Arzelaschen Satz ist diese Funktionen- 
menge kompakt, d.h. es existiert eine Teilfolge {Nj}, i=1, 2, 3,..., so daB fir 











Differenzenverfahren zur naherungsweisen Lésung 137 


jedes k, » die Folgen {Uy,(rt; &)}, ( 


(t; é)} fiir 1-00 yas ‘ gleichmaBig kon- 
vergierer. gegen auf § stetige Grenzfunktionen U* (zr, n, = ~ op (Fs &). Dabei sind 


die gleichartigen Schranken fir die Folgefunktionen oid Schranken fiir die 
Grenzfunktionen. 
7. Die Funktionen u*=U*(t, x) sind auf & eine Lésung- des Anfangswert- 
problems (P): Sei gph<t<(0+1)h.. Aus (2.7) folgt fiir jedes N 
o*? a’, @ Uk ex,;) 
ete 8) = + at ana (it | aa 
$a 6 (06 Uy (oh; &))} (e — ef). 


—1" 
Fiir o=0 ist 2 {...} durch Null zu ersetzen. Zur formalen Vereinfachung werde 


oh+ Oo(e—ed) + (2.8) 


statt N; im ideeeten N geschrieben: Dann gilt fiir die betrachtete Teilfolge: 


x) lim {...},.,(t — @h) =0, 


N-0©o 


da {...},., gleichartig beschrankt ist und (t—o@h)—0. Fiir p21 ist 


t e-1 
B) | J bilr’., U(e,8)) de’ — ¥ 6, (0A, 8, Uv (oh: &)) A 





[HPP medae Zo. he, Ueome) a+ 





nS £, U(ch, £)) — b, (oh, &, Uy(oh; §)]|4< 2hk+e't+e'd<e, 





denn die Funktionen 6; sind fiir U(r, €) definiert, da U(r, £)€ Ul, und auf x 


(g@—1)h ' 


beschrankt, also | b,|<k unabhingig von (t, €) ER; ferner ist J b,(...) dt’ gleich- 


maBiger Limes seiner Naherungssummen, also die zweite rn <e’, falls N 
geniigend groB; schlieBlich ist 6; in Ul gleichmaBig stetig und Uy (zr; &) gleich- 
maBig konvergent gegen U(r, &), also fiir geniigend groBes N die letzte Difterenz 
<e’d. Somit ist fiir geniigend groBes N die abzuschatzende Summe <e fiir 
ein beliebig vorgegebenes ¢, unabhangig von (r, &), (rt, )ER, t >0. 


; -1 
”) | f mile 8) Se (eB) dv’ + ay 


0 


aur ax6 5) 


dxt: ) Ot i 








(e—1)h 














. ’ , vy , aui , , 

s [ ay; (t’ Re oF UF tg »€)dv') + az, (t', 8) Se (v', de — 

ee 0 (2.9) 
au; et 4 AUR ax). 

— Sai(oh 8) GE maya] +|— Sat oh 0 (on, oh.8) + 

o= = #7) 
aut, axi jy 
+See ad ax), on , 
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at, (v’, &) SO (e’, &) de’ 


(e—1)h 
(z, €), (t, €)€R, umabhangiger Konstante k’, da az,(t, &) und SF o (t é) auf & 
stetig sind. Ferner ist . 


wobei E 5 beniitzt wurde. Nun ist < k’ hmit von 








(e-1)h 
azj(e’, 8) OU! (a, g) ae — Saleh, 8) Spr (oh: 8) 

0 

(e—1)h 


lA 





aj j(t" €) se (t ‘,§) dt’ — Dayle, ) id pe (oh, é) i| + 


[aslo ) 20" (oh €) — ay(o 8) 8 


oe (oh; &)||hse' +e’ 





fiir eins prem N aus peeetgsony Griinden wie in £). SchlieBlich ist 
infolge der gleichartigen Stetigkeit von — 7c Uh ig; é) u a Stn (t, t, &) 


‘o—1 


auh ax}. 
at (oh; £) 6) (oh, oh, 8) — 





au, axk R 

-( oh Ce; yy) 2200. (oh, x, &)]. he'd 
xij) 

fiir geniigend groBes N. Also ist die linke Seite von (2.9) <k’h+e'+2e’d<e 

fiir beliebig vorgegebenes «¢, falls N geniigend groB ist, unabhangig von (r, é), 

(x, &) ER, t>0. — Aus «), B), y) folgt, daB die rechte Seite von (2.8) fiir N—co 


auf R, t>0, gleichmaBig konvergiert gegen 





ears 


a(t) +etf[- a’ ,(r’, £) - (x’, €) +.8,(e',g, U(e',8))| ae’. 
Andererseits ist der Limes der linken Seite von (2.8) U*(z, £). Also ist 
U*(r, 8) =a ete {[-aile Se 18) + ble, g, U(r’, &))] dv’. (2.10) 


U*(t, x) ist somit eine Lésung von (P), denn fiir ¢=0 ist U*(0, x) =«#*(x), und 


k 
ae *) _ yhi |— a’ ,(t, x) re) + b; (t, x, U(é, *))). 


8. Jede konvergente Teilfolge nach 6. muB gegen dieselbe Funktion U* (é, x) 
_konvergieren. Denn jede Grenzfunktion ist nach 7. eine Lésung von (P) und 
nach den ininaaeia ee Sates kann es héchstens eine solche geben. 


Uh (¢; x) auf & gleichartig stetig sind, ist nicht nur 


hinreichend, sondern auch SD dlls falls unser Verfahren zu stetigen Funktionen 





Die Bedingung, 





hk 
_ (t, x) fiihren soll. Es ware jedoch wiinschenswert, daB-sie durch bekannte 
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UN 
5 (¢; x) ausgedriickt 





ware, Fiir den folgenden Spezialfall ist dies méglich. 


Satz #. Es seien die Koeffizienten aj, konstant, die sanibsonen b; unabhangig 
von den “* und Polynome vom Grad <g, nj in den x’, die a (x) Polynome i in 


den x” vom Grad <g+1.. Dann sind die 2? pe (Ts &) auf & gleichartig stetig fiir 
alle k und ». 


Beweis. 1. Im vorliegenden Fall ist nach (2.2) 
A 
(ii) (é, T, é)= = + tin) (¢— 1). el (é, T, é) _— 6}, 
ats) 
also nach (2.4) fiir (tr, €) ER, ch rS(o+1)h, 


aur 2°. aUK (oh; x%53)(oh, t, &)) 2b; (ah, &) 
gp (rib) ah al, oP + ip (tah. 


Somit ist fiir jedes o, o=0,1,...,N—1, fir OS/<g+41, fiir 1,,7,,...,74,= 





1,2,..., ”, 4,4, falls y=, und fiir jede ganzzahlige Partition {J,},-,<,, x L=i, 








a aU 
WETS (t; &) 
Ot (OEa)A... (OEim\im OE” 
= a4 i ( ad OUR (oh; x53 (0h, Oh) oa 
*T\ og... BEMe(OEU)A ... (Ein) In og (a®,;)¥ 
0, falls ],>2 (2.41) 


ott Hb; (ah; &) 
+ (Ag)... (OEin)ln BE” ’ 


i a+1b; (oh, 
GR SRCaF (t—oh), falls l=0 


falls Jy = 1 








vorhanden, denn es werden zur Berechnung nur Polynome ineinander eingesetzt. 
Die Ableitungen (2.11) sind als Polynome stetig im Bereich (1, £)€, ch<1r< 
(o+1)h. Ist 1,=0, so gilt auBerdem 


a , rr él aut 

a... ¥ (aE%)h... (Om Oe (36) = (Enh... (OEimym OE” 

2. Aus (2.11) folgt fiir /=g+1, daB die linke Seite von (2.11) fiir jedes N 
und fiir 0<1+<6 identisch Null ~ A 11) zeigt ferner: ist ,=1 und />1 und 


sind die /-ten é-Ableitungen von ~ Us (oh: $e eM durch die Konstante M 








(ah; &). (2.12) 





gleichartig beschrankt auf ganz &, so ist 
a aUN ,. 
ar(agujh., . (Bin) ae (t; 0 


ki at? ab; (t, é) 
PPA [Jats] M+ max, {lel | ein eemm or |) 


d.h. die links stehende Ableitung ist fiir jedes k selbst gleichartig beschrankt 
auf &, da die rechte Seite unabhangig von N und o ist. Wir bezeichnen die 
gemeinsame Schranke mit M*. 
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3. Unter den Annahmen von 2. und nach (2.12) ist die Funktion 


GRRE ua (x; €) im abgeschlossenen Intervall cht (o+ 1)h stetig, 
im offenen nach t differenzierbar. Anwendung des Mittelwertsatzes und Be- 


riicksichtigung von 2. ergibt 
g-1 au err Tek : 
(gt)... (OEim\m OE” ("; a|s “y | (Ogn)... (Agim) OEP (oh; 8) nae 


g-1 Ou 
s| (OFi)h.. (Ome = (8)| 4+ M*6. 














Also sind die (J —1)-ten é-Ableitungen von oUN (rt; €) selbst wieder gleichartig 
‘ ag” 
beschrankt auf &. 
4. Aus 2. und 3. folgt die gleichartige Beschranktheit aller partiellen Ab- 
leitungen fiir/=1. Es seien S die gemeinsame gleichartige Schranke, (r*, *) € 8, 
(z, 7 ER, t#S7, phStS(0+1)h, p*hSt*S(0*+1)h. Dann ist 











6UR ,_. |__| @UN 7 -¢.  aUy 
Se ie — FE ea] =|Fe een SG eae + 
o* k k k 
St 2TH (on; 86) — SON ce; 69) 4 SUB Ce; ge) — SPN Oe 2 


o=e+l 
< S(r* — pth) + Sh(o*— 9 — 1) + S((o +1) h— 1) +nS é* — | 
< (n +1) S|\(x*, €*) — (7, 4)], 


. entfallt fir e*=o. Somit sind die 2° N Ug; &) auf  gleichartig stetig. 


= 


_§3. Zur praktischen Durchfiihrung des Verfahrens. Beispiele 


Bemerkung 1. Sind dié Funktionen #*(x) von (2.1) sogar €C?(%) und die 
Funktionen 6; (é, x, v+4@(x)) auf © xB definiert und €C'(G xB), B+9, so gibt 
es zum Anfangswertproblem (P) ein aquivalentes mit den Anfangswerten 0* (x) =0. 

Beweis. Wir setzen v’=u* —u* (x). Aus ——e erhalt man damit 


a}, - + aj, (t, x) @ = B,(t, x, v) 
mit 
out (x) 
ox” 
K 1, 2, 3, 4 gelten dann bei geeignetem @ ebenfalls. Lésungen v*(t, x) des trans- 
formierten und «*(t, x) des urspriinglichen Problems sind einander umkehrbar 


eindeutig zugeordnet. 





B,(t, x, v) = 0, (t, x, v +u(x)) — aj, (t, x) - 


0 out 
tke at 
stant, det (b?,) +0 ist, gibt es ein dazu dquivalentes System (1.1) mit a9, +0. 

Bewets. Das gegebene System 14Bt sich durch Zeilenoperationen in ein System 
(1.1) tiberfiihren: Sei | 5?,| >| 6?,|=---=|2%,,|. Bei Division der ersten Zeile mit 
b°, und Subtraktion der mit 5, multiplizierten neuen ersten Zeile von der 7-ten, 
i> 41, erhalt man ein dquivalentes System mit einer Matrix (69,), so daB b?; =6;, 


Bemerkung 2. Falls fir ein System } + di, (t, 2) 2 =o(t, x, u) 09, kon- 
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Fortsetzung des Verfahrens fiihrt zu einer Matrix (0?{") mit 0°") =6,, fir i=k, 
|o°{"|<1 fir k>i. Die mit dem Faktor 2‘? multiplizierte i-te Zeile, i>1, 
wird zur ersten gezahlt. Die-dadurch entstandenen Koeffizienten a®, von du*/dt 
sind alle +0, denn 
k-1 
at = 284 Sat, 


v=1 


“1 g| cab 





Sei a= 0 min atl a} ,|} und werde die mit dem Faktor 2/« multiplisierte erste Zeile 








zur 7-ten, sig gezihlt. Dann ist a°,=b9(")4 2 a »0, denn ba >2. 
Bemerkung 3. Sei statt Ne 1) ein cage 
(6, 2) 2 4 Azy(t, x) 2%. = Bil 2,9). 6.1) 


vorgelegt mit auf & definierten Funktionen A}, (t, x) € C1(G), det (AP, (é, x)) 0 
auf &, das zu auf X vorgegebenen Funktionen a(x) € C1(%) auf ®, t> 0, eine em 
deutig bestimmte Lésung v*=v* (t, x) besitzt, so daB auf 8, =0, v* (0+, x) =o" (x) 
ist. Dann gibt es ein zu (3.1) ,,aquivalentes’‘ System (1.1). In welchem Sinne 
,aquivalent“ zu verstehen ist ergibt sich aus dem nachfolgenden 


_Beweis. Wir setzen 
6;; u(t, x) = Ad, (¢, x) v*(t, x), 4, a’ (x) = AD, (0, x) (x). (3.2) 
Die ui! (t, x) bzw. #*(x) sind hierdurch auf &, t>0 bzw. X (bei passender Wahl 


von @) eindeutig durch die v*(¢, x) bzw. 0*(x) bestimmt und u‘(0+, x)= a(x). 
Aus (3.1) folgt auf 8, ¢>0, die Identitat 





4, Ee + At, (t, x) DI (t, x aa We 
= B.  (é, Xx, wp - Sale x) Di(t, x) w(t, x) — Ai, (t, x) u u' (t, x) 54 


mit Dj(t, x) A®,(t,.x)=6,,. Die Funktionen 1/ (t, x) geniigen also auf &, ¢>0, 
dem System 


il tial 
65; —s + a; (t, x) 58 = 5; (t, x, u) (3.3) 
mit 
ai; (t, x) = Aj, (t,.*) Di (t, x), 


dA? , (t, *) 





b; (t, x, u) = B;(t, x, Du) + Di (t, x) ui — At, (t, x) w’ —— » 
und es ist «*(0+, x)=«a*(x). Sei umgekehrt auf & eine Lésung von (3.3) mit 
dieser Eigenschaft gegeben. Dann-ergibt (3.2) in eindeutiger Weise Funktionen 
v* (t, x) bzw. v*(x) auf ®, t>0 bzw. R, t=0;.so daB v*(¢, x) Lésung von (3.1) 
mit der Eigenschaft v*(0+, x)=%(x). Mit Bemerkung 2 folgt aus (3.3) die zu 
beweisende Aussage. 

Das folgende einfache Beispiel 1 ist so gewahlt, daB Naherungslésung und 
exakte Lésung im GroBen in geschlossener Form berechnet werden kénnen. Ob- 
wohl das Problem nicht zu der in Satz 2 behandelten Klasse gehért, kann auf 
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direktem Wege die Konvergenz der Naherungslésungen gegen die exakte Lésung 
gezeigt werden. Ferner gibt das Beispiel AufschluB tiber die Konvergenzordnung 
und erméglicht einen Vergleich der in dieser Arbeit eingefiihrten » Quasicharak- 
teristiken“‘ mit den klassischen eindimensionalen Charakteristiken. 


Beispiel 1. Gegeben ist das System 
dv dv ow saw 


gad aces ae we P 

(3.4) 
|, 5 + gee. Bos 
ot ot Ox 


mit reellen Konstanten a, b, a=+-b, a+:0, b+-0. Das System (3.4) ist dem System 


Seis oe, ce oe. aquivalent, auf das jedoch im Gegensatz zum System (3.4) 


ot ax’ at Ox ; 
unsere Methode nicht angewandt werden kann. Auf der Geraden ¢=0 sind die 


Anfangswerte 0 (x) =w (x) =e* vorgegeben. Gesucht ist im Punkte (T, X), T>0, 
sowohl die exakte Lésung als die nach (2.3) ermittelte Naherungslésung. Zur 
formalen Vereinfachung nehmen wir an, daB T= gh ist, 9 eine ganze Zahl. Wir 
finden zunachst fiir die durch den Punkt (rt, €) gehenden Quasicharakteristiken 


X11) (t, T, é) naked a(t ia t) +&, Xa) (é, T, é) ee 4 (¢ 7 t) +; 
%ar(t,t,€)=—b(t—t) +8, %en(t,7,€) =— $ (¢—1)+é. 


Damit erhalt man nach (2.3) fiir r=(o+1)h die Naherungen 





V ((o+1) h; 8) = +, {aV(oh; bh +£)—bV (oh; ah+2) + abW (oh; + +2)— 


asad; 4 = +é)}, 


h;* +8) — 


Mey Re Pent —bV(ch; bh+8)+aW(o 
—bW(oh; + 5 +e}. 


Man kann fiir o=0 bestatigen und fiir beliebiges o< @ durch vollstandige Induk- 
tion beweisen, daB 


V((o +1) h; &) =—*, {(a* — be") Vick; &) + ab(e — eM) Wich; 8)}, 





(3-5) 
W((o +1) h; &) = + {(e** — &*) Vioh; £) + (ae — be") Wich; &)} 


ist. Zur Lésung dieser Differenzengleichung setzen wir 
V(oh;&)=c,(€) 4", Woh; &) =c,(€) 2”. 
Dies fiihrt fiir c, (€), c,(€) auf die Gleichungen 
(ac*— be**— (a—b) A), + ab(e” — e") c,=0, 
(e** — e*) c, + (ae* — be” — (a — b) A) cg =0. 











~ 
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Fiir nichttriviale Lésungen muB 4 gleich A, oder A_ sein mit 
Ay =14h— 4 tae F ie ped ~ (Vas ab+ yaa) + O(h'). 
Unter Beriicksichtigung der stag findet man 
V(T; X) =e 4 — ee + ot a 


vat) * 


ab 
ar(yib+ oh) — 282 b+ 71) )|} + 
aie 9 ab— 1} +009, 
pate , ba (3.6) 
W(T; X) = 714 -$la- ate (at — Va) + 
1 








\4 


a6)} +0). 


vat (oép + a (Fas + V2) 


h .x-T} 1 a+b/ 1 

+5 het Se (Gas 

- Die Lésungen V(T; X), W(T; X) der Differenzengleichungen (3.5) konver- 
gieren fiir h->O gegen den Wert e*+?. Die Funktionen v(t, x)=w(t, x) =e*t' 
sind — wie leicht zu bestatigen — die Lésung des Differentialgleichungssystems 
(3.4) fiir die gegebenen Anfangswerte. — Wie in (2.6) ausgefiihrt wurde, ist der 
lokale Verfahrensfehler unserer Methode von der Ordnung h?. Wie zu erwarten 
zeigt (3.6), daB der globale Verfahrensfehler in diesem Beispiel von der Ordnung h 
ist. — SchlieBlich folgt aus (3.6), daB die Tatsache der Konvergenz wnabhangig 
von der Wahl der Konstanten a und 6, d.h. unabhdngig von der Richtung der 
Quasicharakteristiken ist. Dagegen beeinfluBt die Wahl von a und 6 sehr wohl 
den Faktor bei # und in diesem Sinne die Giite der Konvergenz. Setzen wir 
namlich a=1, 6=—1, so werden je zwei der Quasicharakteristiken einander 
gleich (x(1)(¢, t, ) = %¢)(t, t, €), i=1, 2) und gleich den klassischen eindimen- 
sionalen Charakteristiken und unser Verfahren geht in die bekannte Charakte- 
ristikenmethode iiber. In diesem Falle wird nicht nur — wie (3.6) zeigt — der 
Faktor von / zu Null, sondern (3.6) stellt bereits die exakte Lésung dar. Indessen 
existieren im allgemeinen Fall (n>1, m>1) auBer fiir eine sehr eingeschrankte 
Klasse von Differentialgleichungssystemen bekanntlich keine eindimensionalen 
Charakteristiken, die etwa wie in Beispiel1 unter den Quasicharakteristiken 
einander 4quivalenter Systeme auftreten. Die Quasicharakteristiken haben je- 
doch stets eine Bedeutung und man kann die Frage stellen, fiir welches von dem 
zu den gegebenen dquivalenten Systemen der Verfahrensfehler minimalisiert wird. 
Als nachstes fiigen wir ein Beispiel an, bei dem unser Verfahren numerisch 
durchgefiihrt wurde, und das einen Uberblick iiber die zu erhaltende Genauigkeit 


geben soll }. 

















1 Die numerische Rechnung wurde mit freundlicher Genehmigung von Prof. F. L. 
BAvER auf der Z 22 des Instituts fiir Angewandte Mathematik der Universitat Mainz 
ausgefiihrt. Fiir Unterstiitzung danken wir ferner den Herren Dr. R. BAUMANN und 


Dr. J. STOHR. 
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Beispiel 2. Gegeben ist das ae 

















a thea wat) és +77 a + (2*- Comet 
+5 Ht (-F+ G20) 245245, St, 
wtih ek Omer tie Fee 
* (aa Ate 7 Rat rs Bs Cae Har) 2) ses + (3.7) 
+ Ama 3 * batt aks bs ces 2) op =e 
wobei 
={(2+ to )at (5 - a _ awTH )ypeertrte 4 ertote sg, 
by = {1-4 1 Rta SEE (x ++455 ze abe eran + 2b. 


Auf der Ebene ¢=0 werden die Anfangswerte v(x, y, z)=W(x, y, z)=0 vorge- 
geben. Gesucht sind Naherungslésungen V(T, X, Y,Z), W(T,X, Y,Z) fir 
Punkte (7, X, Y,Z) in einer Nachbarschaft der Anfangsebene t=O fiir ver- 
schiedene Werte von N. Die exakte Lésung des Anfangswertproblems ist v=te*t?*+*, 

=t*, Die Lésungen der gewohnlichen Differentialgleichungen der Quasicharak- 
teristiken des Systems (3.7) lassen sich in geschlossener Form ermitteln. Es 
ergaben sich nach dem beschriebenen. Verfahren fiir 


T= 0,1, X =0,11, Y=Z=0,2 und . 
h= 0,050: V =0,1657, W = 0,0060; 
h = 0,033: V =0,1658, W =0,0075; 
exakte Lésung: v = 0,1665, w = 0,0100; 


T=0,2, X=Y=Z=0,5 und 
h=0,100: V = 0,8669, W = 0,0586; 
h=0,067: V =0,8724, W = 0,0594; 
exakte Lésung: v = 0,8963, w = 0,0400; 


T=0,5, X=1, Y=1,5, Z=—}3 und 
h=0;167: V =0,3321, W =0,1347; 
exakte Lésung: v = 0,3033, w = 0,2500; 


T=0,5, X=0,8, Y=0,2, Z=2,1 und 
h=0,167: V=1,1445, W= 0,7810; 
exakte Lésung: v = 1,1099, w = 0,2500; 


T=1, X=0,12, Y=0,14, Z=0,08 und 
h=0,500: V =1,4132, W=0,5201; 
h=0,250: V =1,4398, W = 0,7233; 
exakte Lésung: v = 1,4049, w = 1,0000. 


Unser Verfahren eignet sich auch zur Lésung von Anfangs-Randwertaufgaben, 
falls beim Auftreffen der Quasicharakteristiken auf die Randflache die dort vor- 
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gegebenen Funktionswerte zur Berechnung der Naherungen (2.3) beniitzt werden. 
Ohne auf Einzelheiten einzugehen, erlautern wir den Grundgedanken an dem 
einfachen 


' Betspiel 3. Gegeben ist das System 


ov dv dv ow ow Ow , 
ot +3 dx dy Ot ox “Oy” 4, (3.8) 
dv Ov Ov ow Ow ow 5 
ot Oe + byt Of tos oy 


.gesucht eine Lésung in dem Bereich y=1, ¢>0 mit den Anfangswerten 


v(x,y)=x+y, w(x,y)=0 fir ysS1, t=0, 
und den Randwerten 


T(,x)=—-Lte+i1, w,x)=—2¢ fir y=1, t>0. 


Aus (2.6) folgt, daB unser Verfahren fiir dieses Beispiel die exakte Lésung ergibt. 


Wir finden fiir die Quasicharakteristiken durch den Aufpunkt (t, &, 9) 


cay t én) =3(@—t)+8,° Yanlt,t 6) =— (¢—1) +7, 

X(t, t,€,y) =t—1t+é, Ya2)(t, t,€,y) = — (¢—1t) +7, 

X21) (t, Tt, é, n) =t— T + é, Y21) (t, T, é, n) —_ t — > +, 

X22) (#, t,€,9) = 2(¢— 1) +&, Ye2)(t, t,€,) = — (¢— t) +79. 
Im Bereich t+ yS1, ¢>0 liegt also ein reines Anfangswertproblem vor, dessen 
Lésung nach (2.3) im Punkte (7, X, Y) 
5T 
= 
ist. Fiir einen Punkt (7, X, Y) im Bereich t+ y>1, ¢>0, yS1 treffen die Quasi- 
charakteristiken (11), (12), (22) die Ebene y=1 in Punkten mit ‘> 7+ Y—1, 
die Quasicharakteristik (21) trifft die Halbebene = 0, yS1. Dementsprechend ist 


v(T, Xx, Y)—% — w(T, X, Y)—wy2 


v(T,X,Y)=—-4+X+Y, w(T,X,Y)=— 


ha T-t es 
OIE Be Stee 4, ME FI ee os — 
= T-t , 
mit 
Y=— 5 t3¢-—T)+X41, te=— >t, 
va,=—2T74+X+Y, wr=— Dt. 
Daraus folgt wiederum 
v(T, X, Y)=— = +X+Y, w(T,X,Y)=— e, 


Somit ist die gesuchte Lésung von (3.8) im Bereich. ysi, t>0 


St 


vt,xy=—-l+xty, wltxy=- >. 
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Ferner kann unser Verfahren auf quastlineare Systeme mit ‘Koeffizienten 
aj, (¢, x, #) ausgedehnt werden, indem zur ndherungsweisen Berechnung der Quasi- 
charakteristiken und der Funktiorien Ux (rz; ) im Intervall ch<trS(o+1)h 
ai,(t, x,“) durch aj,(t, x, Uy(oh; x)) ersetzt wird. Untersuchungen iiber die 
Konvergenz des Verfahrens in diesem Falle liegen noch nicht vor. 

AbschlieBend sei erwahnt, daB hinsichtlich der hier beschriebenen Methode 
noch einige Fragen offen sind. Erwiinscht waren Bedingungen fiir die Stabilitat 
und a priori-Bedingungen fiir die Konvergenz,statt der in Satz 1 beniitzten. 
Endlich die Frage, ob es zu einem gegebenen System ein dquivalentes mit opti- 
maler Konvergenzgiite gibt, wie es etwa in Beispiel 2 der Fall ist. 
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Chebyshev semi-iterative methods, 
successive overrelaxation iterative methods, 
and second order Richardson iterative methods 
Part I 
By 
GENE H. GOLUB* and RICHARD S. VARGA 


§ 1. Introduction 
One of the major areas of interest in numerical analysis is concerned with 
the numerically efficient solution of the matrix equation 


a+ 


" (1A) Ax =k, 


where A is a given N XN real symmetric and positive definite matrix, and k is a 
given column vector. The matrix equation (1.1) can be onecn fh reduced to the 
analogous matrix equation 


(1.2) x= BE+¢, 


where B is an N XN real symmetric matrix which is convergent, i.e., if the eigen- 
values of the matrix B are u;, 17S, then the spectral radius [9] o(B) of B 


satisfies 
(1.3) o(B) = max|y,| <1. 


At this point, one can consider the different convergent systematic iterative 
methods in the title of this paper, and basically, the literature on the analysis 
of these methods can be conveniently separated on the following classification 
of the matrix B. With B symmetric, we say [20] that B is cyclic (of index 2) 
if there exists an N x N permutation matrix A such that 


7r_(0 F _B 
* anata(2,) = 


where the non-vacuous diagonal blocks of B are square, with zero entries. In 


the more familiar notation of YounG [24, 26], B satisfies property A, and B 
is consistently ordered with the o, ordering. If no such permutation matrix A 
exists, we say that B is primsitve**. 


* This paper includes work from the doctoral dissertation [7] of the first author, 
who wishes to thank Professor A. H. Taus of the University of Illinois for guidance 
and encouragement in the preparation of that dissertation. 

** Usually, the terms primitive and cyclic are reserved (see [23]) for irreducible 
matrices with non-negative entries. In the case that the matrix B of (1.2) is symmetric 
and. irreducible, with non-negative entries, these definitions agree with the classical 
terminology. 
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If B is primitive, then the only systematic iterative methods of .the title 
which have been analysed* and used in large scale digital machine codes are 
the Chebyshev semi-iterative method [5’, 11, 16, 18, 25], and the second order 
Richardson iterative method [6, 13]. Actually, one can also define the successive 
overrelaxation iterative method [6, 26] for an expanded matrix equation of the 
form (1.2), and in §2, our first result is that all three methods, when optimized 
with respect to acceleration parameters, are from a certain point of view remark- 
ably similar **. In §3, we shall compare these three systematic iterative methods, 
using the spectral norms of the respective matrix operators as a basis for com- 
parison, anf we shall show that the matrix operator for the Chebyshev semi- 
iterative method possesses the smallest spectral norm. Since the practical 
application of the Chebyshev semi-iterative method in the primitive case requires 
effectively no additional arithmetic operations or vector storage over the other 
iterative methods, it would appear that of these three systematic iterative 
methods, there is no practical or theoretical reason for not always using the 
Chebyshev semi-iterative method for the primitive case. 

If B is cyclic, then several results already exist in the literature [13, 18, 25, 27] 
‘comparing the three basic systematic iterative methods of the title. In §4, we 
shall define a new systematic iterative method, called the cyclic Chebyshev 
semi-iterative method for cyclic matrices B, which again requires effectively no 
more additional arithmetic operations or vector storage over the other iterative 
methods. This new systematic iterative method, which has combined the ob- 
servations of several others, will be shown in §5, using spectral norms of matrix 
operators as a basic for comparison, to have the smallest spectral norm. Again, 
of the three systematic iterative methods of the title, it would appear that the 
modified Chebyshev semi-iterative method is the best choice in the cyclic case. 

In §6, we shall show how these results can be used in conjunction with 
various block methods [/, 8, 12,21] to numerically solve elliptic difference 
equations, and finally in §7, we shall give some of the results of recent numerical 
experimer:‘s on the comparison between the systematic iterative methods of 
the title. 

§ 2. Primitive Matrices 

We assume in this section that the matrix B of (1.2) is primitive. If « is 
a given vector guess of the unique solution ¥ of (1.2), then we iteratively form 
the vectors «+, defined by 
(2.1) att) — Bote, t=0. 

Since 9(B)<1, the sequence vectors «“) converges [9] to the solution vector %. 
If €%=*%~— a, i>0, is the error vector associated with the iterate «), then 


(2.2) eet) — Be, i=0; 
and thus, by induction 
(2.2’) e = BIO, i =o. 


* A notable exception to this is KAHAN’s theoretical extension [10].of the suc- 
cessive overrelaxation iterative method to the case where B is primitive, and has 
non-negative entries. 

** It- has been generally assumed that the successive overrelaxation iterative 
method could not be applied in as general cases as could the Chebyshev semiiterative 
method. See [27, p. 291]. 
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We now consideft forming linear combinations* of the vectors «“) in order 
to accelerate the convergence of (2.1). Let 


ear ar 
(2.3) BO = Dia, ,%™, t20.. 
k=0 
4 4 > silt 
As in [18], we impose the natural condition that )}a;,=1. Thus, if eH) — ¥— Be, 
k=0 ; 


1=>0, then 
i i 
(2.4) : 60 =(¥ a,,,B) 8. 
k=0 


If p;(t) = Dia; ,t*, then (2.4) becomes formally 
k=0 


(2.4’) 6”) = p,(B) €, 
where #;(1)=1. Let {y;}/_, be an orthonormal set of eigenvectors of B, where 
N 


BY;="wi¥i, 1SISN. If €= D'c,¥,, then it follows that 
fot 


* N 
(2.5) ("= DC bm (Wr) Ve 


If all the eigenvalues 4; of B were known a priori, then we could determine 
a polynomial py (x) such that py(u,)=0 for 1S kSN. Since this is seldom the 
case, let S,, be the set of all polynomials #,,(x) of degree m, normalized so that 
Pm(1)=1. Since B is symmetric and convergent, all its eigenvalues y,; satisfy 
—1<—o(B)<y;Se(B)<1, and‘we seek** the polynomial ,,() for which 
2 i = h | 
(2.6) pmin {_max |bn(x)|} = max |Pm(+)], 
where o=0(B). As is well known [4], the unique solution of this problem is 
given explicitly by 


7 % (x) — Cm(*/0(B)) > 
(2.7) Pin (% => Cm (1/0 (B)) >» me IO, 
where - 
1 < = 
(2.8) Clie cos (m cos x), x51, m=0, 
cosh (m cosh x), x=1, m=O, 


is the Chebyshev polynomial of degree m. Since the Chebyshev polynomials 
satisfy the well-known recurrence relation 


(2.8') Cua (*) =2%Cy (x) —Cya(x), mA, 


where C,(x)=1, C,(x) =x, we can use (2.8’) to deduce a recurrence relation for 
the polynomials #,,(x) which, when inserted into (2.4’), leads to the following 


* This is called “‘linear acceleration” by ForsyTHE [5]. Professor A. H. Taus 
has kindly pointed out to us that these results were known much earlier to von NEvu- 
MANN. See [2]. 

** Tf B is known to be non-negative, irreducible, and primitive, then the smallest 
interval a<%* <b which contains the eigenvalues of B is such [23] that |a|<b=@(B). 
While this change in the problem of (2.6) would result in improved convergence rates, 
it is in general difficult to obtain the lower bound in practical problems. 
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relationship* for the vectors fp"; 





(2.9) pity ~ O44{B po +. z— pe-} - pe, i= 1, 
where 

ae eee He 
satin 4 SBCs)’ Ste Mt: 


With w,=1, (2.9) reduces to BY= BB+ ¢= Ba + g@, since B= a, Using 
(2.8’), we can also express the parameters w;,, as 
1 2 


(2.11) nt +22, m=1, o=—; 


4 
which is more convenient for actual computations. From (2.9), we notice that 


the determination of vector iterates Bi does not require the computation or 
storage of the auxiliary vector iterates «) of (2.1). 

Having described the Chebyshev semi-iterative method, we now consider 
the successive overrelaxation iterative method of YouNG and FRANKEL [6, 26], 
applied to the matrix equation (1.2) where B is primitive. Without making 
further assumptions on the matrix B, such as B having entries only of one sign 
[10], successive overrelaxation applied directly to (2.1) has not as yet been 
completely rigorously analysed. We now show that by considering matrix 
equations with twice as many components, successive overrelaxation can be 
rigorously applied to a system of equations derived from (1.2). From (1.2), 
we consider the coupled pair of matrix equations 


ert 


(2.12) i Pie 3 
y=Bx+¢, 


which in matrix notation becomes 


wn U52)6)+(0) 


If 
0B 
2.1 =e 
(2.43) Ja(3 op 
then the matrix J is also convergent, and o(J)=o(B). Since o(B)<1, there 


=_> 


is a unique solution of (2.12’), and evidently ¥=y. 
The successive overrelaxation iterative method applied to (2.12’) is defined by 


Hlm+1) — Flom) 4 w{By™ + rd _ xm} , 
2.14 > > n> a+ = 
( ) Present A et m=O, 
where w is the relaxation factor, and %, ¥ are initial guess vectors. Since 


the matrix J of (2.13) is evidently real, symmetric, cyclic, and consistently ordered 
in the sense of YounG [26], then we can apply the general theory of succéssive 





* This is a somewhat simpler computational form of the recurrence relationship 
than is found, say, in [5’, 16, 18). 








ee 
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overrelaxation due to YOUNG [26] to (2.12’), and the optimum value of w is 
given by 
2 2 
2.1 5) @ = SS ee Se _. » 
4+ Yio) 1+ 1-0 (B) 
To show the similarity of (2.14) to (2.9), we now define a sequence of vectors ¢"), 
where 


r(21) __ 3p(0) 
(2.16) $ mt 


2+) FO, J>0. 
In terms of the vectors £"), we can write (2.14) in the compact form 


(2.17) cim+1) =w{ Bl +g— cim—1)) 4. clm—1), m=, 


where Fo), and ray are given vectors guesses. Thus, we conclude thai the suc- 
cessive overrelaxation iterative method applied to (2.12’) is in the same form 
as the Chebyshev semi-iterative method of (2.9), except that in (2.9) the 
relaxation factors vary with iteration, whereas in (2.17) the relaxation factor 
w is fixed. Even more interesting is the fact that the numbers w; of (2.11) are 
strictly decreasing for 1=>2 (0<o(B)<1), and, as can be readily exhibited, 


(2.18) way omen: Seen ap 


where w, is defined in (2.15). 
We now consider the second order Richardson iterative method [6, 13], 
which is defined from (1.2) by 


(2.19) A") = 7 4 af BH +B — HM} + BH — FM}, mEA, 


where 7, 7 are given initial vector guesses to the unique solution % of (1.2), 
and « and f are fixed acceleration parameters. If 6’ =£ —«, this is equivalent to 


(2.19’) 7H imtt) onl nm) me a{B 4”) +- rg ia nim} + Bin™ * nm, m= 1. 


One can extend the analysis of FRANKEL and RILEy [6, 26], and the best 
aeceleration parameters, those giving the fastest asymptotic convergence, are 
given* by 
. een, ff =—?. 
reed " 1+ /1—*(B) p 
With this choice of parameters « and f’, we see that the second order Richardson 
iterative method of (2.19’) is identical with the successive overrelaxation iterative 
method of (2.17), with w=@,. Of course, RILEY [13] pointed out this correspond- 
ence in the case of the numerical solution of the Dirichlet problem. 
Having compared three sysiematic iterative methods for solving (1.2) when 
B is primitive, we see that each method, when optimized, bears a strong resem- 
blance to the other methods. In the next section, we shall compare these three 
iterative methods using the spectral norms of the corresponding matrix operators 
as a basis for comparison. 
* See also [22, p. 485]. 
Numer. Math. Bd. 3 11 
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§ 3. Primitive Matrices: Comparison of Methods 
As in the previous section, we assume that B is real, primitive, and ayaa, 


with {¥,}_, as an orthonormal set of eigenvectors of B. If, as in §2, € = > Cer» 
then Euclidean norm of € is defined by ata 


GH) |= (Za). 


To review some facts [9] concerning norms of matrices and vectors, let M be 
any real NxN matrix. For any real vector % with N components, then from 
y = MX, we have 


(3.2) [7 | = |x| <c(M) [FI], 
where 
(3.3) t(M) = [e(M7 M)}}. 


The quantity t(M) is called the spectral norm of the matrix M. Characterized 
in a different manner, we have that . 


(3.4) c(M) = max 71 
zi+o [lll 


It is clear that if M is symmetric, then the spectral norm t(M) of M coincides 
with the spectral radius 9(M) of M. 


For the Chebyshev semi-iterative method of (2.9), we have that 2 = %, 
and é™) — 3 (B) €. Thus, 
(3.5) [E™|<7(B,(B)) [2],  mZo. 


Since the matrix B is symmetric, so is the matrix #,,(B), and we can express 
T (dm (B)) as : 
(3.6) T (bm (B)) = @ (bm (B)) = max, |p (1:)] 
From (2.7) and (2.8), it follows that 
| Cm (mi/@(B))| 





. = zit 
(3.7) (0B) = Cem =O =O 
and from (1.3) and (2.8), 
, x ae a ; 
(3.7’) T (bm (B)) ~ Cm (1/0 (B)) ’ m=O. 


To simplify the expression in (3.7’), we recall from (2.8) that C,,(1/e(B)) = 
cosh (ma), where cosho=— a, and @(B)<1. Thus, C,,(1/o(B)) = qne(_tte : 

d since o =1 ! |/ yt}, we have that “ete {_ _o(B) \ 
on since ¢ =In 0(B) + 3(B) we have that e Fe eet Ti 
From YounG’s basic formula [26] we can relate e~”’ to the quantity w, in 
(2.15), and we have that e~"°=(w,—1)”*. Combining, we now write (3.7’) as 


— (w, — 1)”. ee > 
6.8) T (bn (B)) = (oy — 1)" {2 t, me. 
Since WH <1 for OS x<1, it follows that the right side of (3.8) is less than 











unity, and is strictly decreasing with increasing m. Thus, we conclude that the 
matrix operator #,,(B) for the Chebyshev semi-iterative method is norm reducing 
for all m=1. 
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For the successive overrelaxation iterative method, or equivalently fog the 


second order Richardson iterative methods with «=w and B=—1, we have 
the following recurrence relation for the error vectors of the iterates of (2.17): 
(3.9) EMD —wBEML 4—w) E"-), 3 ma1, 


where @™ = % — C™, m>0, so that # and @ are dependent on the given vectors 
C and. If a9(B)=TI, and «(B)=w B, we define now the polynomials «,, (B) 
from the recurrence relation 

(3.10) Om+1(B) =o Ba,,(B) + (1 — @) &,—1(B), m= 1. 

By induction, «,,(B) is, for w =+-0, a polynomial of degree m in B, and it is easily 
verified that 

(3.11) é™ = a, _1(B) €™ + (14 — ow) a, 9(B) &, m= 2. 

Upon replacing the matrix B by the variable x in (3.10), the linear difference 
equation of (3.10) can be solved, and «u,,(x) can be explicitly represented by 


PEPE) (x) + (x) 


(3.12) On, (X) = P(X) —Po(*) , m=O, 
(m + 1) of (x), Pr (*) = P2(x) 

where ¢, (x) and g(x) are the roots of the equation 

(3.13) 9*(x) —@ x9(x) + (w—1) =0. 


If w=wa, of (2.15), and —o(B)<*x<+0(B), then as shown in [6], all the roots 
of (3.13) are complex conjugates of the form (w, — 1)4 e**®, where cos #= x/o(B). 
Consequently, 

sin(m-+1) @ 

me SRR 
(3.14) Oy, (%) = (w, — 1)”. a+ 4, 6=0, -? mzo. 


(—1)"(m+1), #=n, 


It is clear from (3.11) that € depends on the relationship between € and @, 


For example, if €® — — € and w=w,, then 

(3.15) e™) = 9,,(B)E°, m2>2, 

where 

(3.16) Ym—1(B) = — [4m —1(B) + (0% — 1) %m—2(B)],  m22. 
From the symmetry of the matrix B, we have that 

(3-17) T [4m—1(B)] = @[4m—s(B)] = max | dm—s(#)], 


but from (3.14), we can directly express t[q,,_,(B)] as 
m—1 
(3-17') — t[4m-1(B)] = (@»— 1) * {|| +|m— 1] (o,—1)}, = me. 
We note that this spectral norm can actually initially increase with m, if w, is 
sufficiently large *. 





* An analogous observation was made by SHELDON [14] in the cyclic case. See 


also §5. 
11* 
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We shall now show that the situation of (3.17’) can be considerably improved. 
Let 


(3.18) C= BLO +g, 

so that. : 

(3.19) eM — BeO, 

For ra selected in this way, then 

(3.20) em =r, (BYE, m=2, 


where 7,,(B) is a polynomial of degree m in B defined recursively, using (3.11) 
and (3.19), by 


(3.21) 1, (B) = Ba,,_3(B) + (4 —@) «,,_2(B), m= 2, 
with 7,(B)=J, and 7,(B) = B. 

Again, 
(3.22) T(r (B)] = 0 [Ym (B)] = max |rq(s4)|, m2, 


and, for the case w=w,, a short calculation [7, pp. 22—23] based on (3.14) 
shows that 

(3.23) t[%1m(B)j = |%m@(B)| = (o, — 1)" {14+ m1 —02(B)}, m=o. 

It is readily verified [7, pp. 23—24] that the right side of (3.23) is monotone 
decreasing for all m=O, showing that the matrix operator for the successive 
overrelaxation iterative method of (2.17) is also norm reducing for m=1 with 


ca) chosen according to (3.18). 

While the Chebyshev semi-iterative method of (2.9) requires but one 
vector guess Bo — C00), (2.9) shows that B® also satisfies (3.18), so that we can 
directly compare the spectral norm (3.8) of the Chebyshev semi-iterative 
method with the spectral norm (3.23) of the primitive successive overrelaxation 
iterative with € chosen according to (3.18) method. Now, since 7,(x)==1, and 
r,(x)==x, it follows easily from (3.21) and (3.10) that »,,(1)=1 for all m>0. 
But from (2.7), the same is true of the polynomials ,,(x). Moreover, since 
T[%(B)]=|7,(o(B))|, and similarly t[,,(B)]=|~,,(o(B))|, we can use, as in 
(2.6), the well known property of the Chebyshev polynomials. that among 
all polynomials g,,(x) of degree m with g,,(1)=1, B,,(x) is the wnigue polynomial 
whose maximum absolute value on the interval — 9(B)< *<-+ e(B) is minimal. 
This gives us 

Lemma 1. In the primitive case where is arbitrary and €% = Bl+ ¢, 
(3.24) T(Pm(B)) <7 (%m(B)),  m>4. 


We shall now consider the successive overrelaxation iterative method with 
another starting procedure*. Let 


CO — BLO 4s 
Gi) — BO +g, 


* Such a starting procedure is suggested for the primitive case from results in 
the cyclic case by SHELDON [12). See also §5. 


_ (3.25) 
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and gim) (m= 3) we generated by (2.17). Then 


(3.26) eM = BEM, Fl2’ — Brg, 
and in general 
(3.27) lm) — t,, (B) e), m=0, 


where the matrix ¢,,(B) is a polynomial of degree m in the matrix B, and is 
defined recursively by 


(3.28) t,, (B) = B*a,,2(B) + (1—o) Bo,,3(B), m2}3, 
where ¢;(B)=B’ for 0<j<2. Again, 
(3.29) € [tm (B)] = elm (B)] = max |ty(yu)], m=, 


and for #=o,, a short calculation based on (3.14) shows that 


(3.30) t[tm(B)] =| tm (@(B))| = (@» — 1) 2 9(B) {1+ (m—1) V4 —g2(B)}, m=1. 


With s,,(¢)=?%, corresponding to the basic iterative method of (2.1), it is not 
difficult to show that 


(3.31) T (%m(B)) < 7 (tm(B)) < 1 (Sp (B)) = 9"(B) for m>1. 
Consequently, we have 


Theorem 1. In the primitive case where (0) is arbitrary and ca) BlLO+E, 
then for 0< 0(B)<1, and m>1, 


(3.32) T (bm (B)) < t (%m(B)) < t (¢m(B)) < 1 (Sm (B)) = 0”(B). 


Thus, the spectral norm of the matrix operator for m>1 iterations of the 
Chebyshev semi-iterative method is less than the spectral norms of the matrix 
operators for m iterations of the two variants (3.18) and (3.25) of the successive 
overrelaxation iterative method, as well as the spectral norms for m iterations of 
the iterative method of (2.1). 
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Chebyshev semi-iterative methods, 
successive overrelaxation iterative methods, 
and second order Richardson iterative methods 
Part II 
By 
GENE H. GOLUB and RICHARD S. VARGA 


§ 4. Cyclic Matrices: The Cyclic Chebyshev Semi-Iterative Method 
We now suppose that the N xN matrix B is cyclic, and in the form of (1.4). 
As we have already pointed out, the matrix B in this form satisfies YOUNG’s 
property A, and is consistently ordered. Because B is real and symmetric, 
Younc’s theory [26] can be applied to the solution of the matrix equation of 
(1.2). With B in the form (1.4), we partition the vectors ¥ and g of (1.2) ina 
manner compatible with the partitioning in (1.4), and (4.2) is equivalent to 


%\_ (0 F 4 4 
4.1 > = — + ~ . 
_ (?:) (er oll. 82 
Without using vectors with twice as many components, as was the case in §2, 
the successive overrelaxation iterative method can be rigorously applied directly 
to (4.1), giving 
| xerh =a {F xm) 4. A er xm + a” 


Ze (m +1) Ty(m+1) 1 > (mr 1 = 
x =m {F" x} Lg, — x"). 


(4.2) : 
+ 4a”, m=Oo0, 


where %/°), x{°) are arbitrary guesses. The best choice of is given by 


2 2 
(4-3) ; 1+ )/1—?(B) 1+ V1—9(F FT) 
We can also apply to (4.1) the Chebyshev semi-iterative method of (2.9), 
which gives, by vector components, 


> > > > — —>(m—1) 
(4 4) 8 aa 1) .00n a9 {F xm) £1 i” »)} 2 ) 
, (m+ T? ~~ (m—1). 1. 3(m--1 
Hg = Oy {FR + Py — Hg") + RQ, m= 1, 


where ¥{) =F X° + ¢,, and x{0 =F? X(+ g,, and these equatious determine the 
vector sequences {X%\")}9 9, and {x{”)}%?_9. It is interesting to observe that the 
proper subsequences {x(?"+"}% 9, and {xj?”}?_9 can be iteratively determined 
from 
(4.5) 


=> ~ =3(3 > 37 (2m—1) ' "(2r-- 1) ‘ta, 
Bete xe gy, a {F535 m4 g — xi m } 4 : m iP 
> j , => ~~» (9 P "(2 wr) ~ 
HT ag of FT REY + HEM LA, mE, 
Numer. Math. Bd, 3 12 
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where again %{) =F %("+ g,. Thus, this iterative method requires no additional 
vector storage over the successive overrelaxation iterative method *, and requires 
but the single vector guess (0). 

We shall call this iterative method, obtained by selecting appropriate sub- 
sequences of Chebyshev semi-iterative method, the cyclic Chebyshev semi- 
iterative method for the matrix equation (4.1). 

In the primitive case of §3, we considered the (primitive) successive over- 
relaxation iterative method, or equivalently the second order Richardson method 
a=w and B=—41, with the starting procedures 


(4.6) XO — BRO 4 F 


and 


40.— BXOL.T 
(4.6’) | ihe 


{Z@ = BEM + zg, 


Here again, it is only necessary in the cyclic case to compute the proper sub- 
sequences {¥(?"+)}%_, and {x%/?™)}"_», and the starting procedures (4.6) and 
(4.6’) become in this case 


(4.7) af) = FAD + & 


and 
(4.7') a) = FI) +B 
. x.) oe FTE + z. 


If w,,=q@ then we see that (4.5) reduces to (4.2). Thus, for the cyclic 
Chebyshev semi-iterative method, a sequence of parameters w,, is necessary 
whereas for the successive overrelaxation method, only one parameter is necessary. 
The variant of the successive overrelaxation method with the starting procedure 
(4.7’) has been studied by SHELDON [15] and the corresponding matrix operator 
for m iterative is denoted by 2%>12,. The relationship between the cyclic 
Chebyshev semi-iterative method and the. successive overrelaxation method 
is quite close. Indeed, as given by (2.18), Jim W,=@,, and it is in fact shown 


in [7], under simple assumptions, that the cyclic Chebyshev semi-iterative 
method must degenerate numerically into the successive overrelaxation iterative 
method. 

As in §3, we will compare the successive overrelaxation iterative method 
of (4.2) for the starting procedures of (4.7) and (4.7’) with the cyclic Chebyshev 
semi-iterative method’ of (4.5), and as we shall see, using spectral norms as a 
basis for comparison, the cyclic Chebyshev semi-iterative method is superior ** 
to the successive overrelaxation iterative method. 





* This idea has already been used by Ruirey [13] to make the second order 
Richardson iterative method competitive in storage with the successive overrelaxation 
iterative method. 

** In relationship to [18], Theorem 1 of [18] shows with spectral radii as a basis 
for comparison, that the iterative method of (4.2) with w=, is at least twice as 
fast as the iterative method of (4.4). Using the cyclic Chebyshev semi-iterative 
method of (4.5) eliminate this factor of 2 since, from (4.5), each complete iteration 
of (4.5) increases the iteration indices of the vectors %, and %, by two. 


-—~- 
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§ 5. Cyclic matrices. Comparison of methods 


The results in this section depend strongly upon the methods and results 
of §3, as well as the recent works of SHELDON [15]. For the Chebyshev 
semi-iterative method, the successive overrelaxation iterative method, and the 
second order Richardson iterative method of §2, we partition the error vector 


é™) in a manner compatible with the form of the matrix B in (4.1), and we 
define 


Zim — (8 
(5.4) em=| " |, m>0, 
E(m) 


> > 
where (= and #(° = are the vector components of the initial error 
vector. For these methods, we have that 


(5.2) E™) —p,(B)€, m>0, 


where the matrix operator #,,(B) corresponds respectively to the matrix operators 
Pm(B), %m(B), t,(B) and s,,(B) of .§3. For the cyclic Chebyshev semi- 
iterative method, and the (cyclic) successive overrelaxation iterative method 
with the starting procedures of (4.7) and (4.7’), the corresponding error vector 
for the m-th complete iteration of these methods is defined by 


> 
* (2m—1) 
1 


(5.3) gm) — ge, 


em) 


From (2.8’), (3.21), and (3.28), it follows that the polynomials ,,(x) of odd 
degree contain only odd powers of x, while the polynomials of even degree contain 
only even powers of x. Thus, we define polynomials U,, and V,, through 


aes = £U,,(x*), m=>0, 


a Dom (x) = Vin (x?) , m= 0. 


Since the matrix has the form (4.1), then 


(FFT)™| 0 bad 0 | (FFT)"F 
oem) 8 =(ermER oS: 


and the definitions of (5.4) and the properties of the powers of the matrix B 
allow us to express 6™ in the simple form 


jim) — (5 U,,.,(F F*)*F 








(5.5) Bim = 








(5.6) 0} V.(FTF) ) é®, m>Oo0. 


Defining the matrix above as P,,(B), this becomes 


(5.6’) 6”) —P (Bye, m>o. 
12* 
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We analogously define the 2 x2 matrix Q,,,(j) as 


(5.7) ea = (9 rer), mot, 
whose spectral norm is easily seen to be 

(5.8) T [Qn (te) ] = (1? Un—a(1?) + Vin (e)}}, m2 4. 
From (5.4), this becomes 

(5.8') T [Qn (#)] = (PE m—1(1t) + Pom (H)}, mm S1. 


We now employ what is essentially a converse of Theorem 2 of the recent work 
of SHELDON [15]*. Denoting the eigenvalues of the matrix B by w;, 1Si<N, 
then 


(5.9) t[P,,(B)] = * max {Pom -3 (#4) + P 3m (14) }4, m = 1. 


1sisN 

Let us now denote the matrix operator of “ 6’) associated with the polynomials 
bm(B), %m(B), t,(B), and s,(B) of §3 as P,(B), R,(B), T,(B), and S,,(B), 
respectively. Then it follows immediately from the results of §3 that 
[P,,(B)] = {t* (Bema (B)) + 1 (Pom (B))} 
t(R,, (B)] — {r? (751 -1 (B)) + (72 nm (B))} 
t(Ty, (B)] = {r? (ty m--1 (B)) a (to sy ( m (2) ))} 
T [S,. (B) wi {r? (S244 | (B)) ~ e (Son ( B))}. 
Since t(py(B)), T(%n(B)), t (tn (B)) andr (' (s,,(B)) decrease monotonically with 


m, so do t[P,(B)], t[R,,(B)], t[T,,(By]**, andz[S,,(B)[. Furthermore, By 
Theorem 1, for m>1 and 0<pe<i4, — ; 


(5.10) 


(5.44) T (Pn (B)) < t(%,(B)) < 1 (t,.(B)) < 1 (s,(B)), 
so that 
Lemma 2. For all m>1 and 0<e<1, 


«[B,(B)] < t[R,,(B)] < t[T,(B)] < t[S,,(B)]. 


The spectral norm of the successive overrelaxation iterative method of (4.2) 
for the case when w is fixed equal to w, has been recently calculated by SHELDON 


* Specifically, in the notation of SHELDON [15], the result we are using is given 
in the following 

Theorem. If 4 is a non-zero eigenvalue of L, then / is also an eigenvalue of some 
T(u;) where yp; is an eigenvalue of the matrix B. 

This result is tacitly assumed in [15], and we are indebted to Dr. SHELDON for 
supplying us with a proof of this result. 

** The quantity t[7,,(B)] in (5.10) is algebraically equivalent to the expression 
for tT (Lo, 12.) in [15]. Thus, the monotonicity noted above strengthens SHELDON’s 


Theorem 4 in [14]. 
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[15], and if 2% represents the corresponding matrix operator for m iterations, 
then * 


(5.12) T [2%] = 12, (@, — 1)", m=O, 


where /,, is the larger root of 

(5.13) 12 — | 8m? +4 mt (72 + ) +2]0+4 1=0, 

and r?=qw, — 1, so that 

(5.12') r[ 2%] —(2% + V3" + 1). (w,—1)", m=. 


We observe that in obtaining the spectral norms for the four iterative methods 
just considered, no assumption has been made about a special form of the initial 
error €, and thus the four iterative methods can be directly compared. 
Then we have 
Theorem 2. In the cyclic case for all m>1 and 0<o<1, with no special 
assumption on the form of the initial‘error vector é, 


(5.14) | u[P, (B)] < t[R,,(B)] < t[T,,(B)]<[S,,(B)], and 


«[P,(B)] < r[2%]. 


Thus, the spectral norm of the matrix operator for the cyclic Chebyshev 
semi-iterative method is less than the spectral norm of the matrix operators for 
the successive overrelaxation iterative method and its modification by SHELDON. 

Proof. From Lemma 2, it suffices to show that «[P,(B)]<1[2™] for all 
m>1 and 0<o<1. By using the expressions of (3.8), (5.10), and (5.12’), this 
inequality reduces to 


8-45) Orn he Gael < ~ +) iid 


which is easily shown to be true for all m>1, and 0<o<1. In fact, the proof 
of the above inequality shows that the ratio t [2% ]/t (P, (B)] is a strictly increasing 
function of m, m>1, for all 0<o@<1. We strengthen the inequalities of (5.14) 
by including 

Theorem 3. In the cyclic case with 0<.9<1, and no special assumptions 
on the form of the initial error vector € tk .n the ratios 


(5.16) + [Rm(B)] = B,, 
t (B, (B)] 1 (PB, ’B)] 


are strictly increasing for m> 1, and ° 


(5.17) %,=O(m),  By,=O(m), moo. 





* Theorem 3 of [15] contains minor misprints, which we are now correcting. 
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Proof. It is an easy computation to show that «(P, (B)]|<2r°"(1+,r7*), and 
that 27?”(1-+7-%) is smaller than either t[R,,(B)] or t[&%,]. The statements of 
(5.16) and (5.17) then follow immediately *. 


§ 6. Applications 
A great many physical and engineering problems lead to the numerical solution 
of matrix equations of the form 
(6.1) Ak =k, 


where A is an N XN real symmetric and positive definite matrix which can, 
after a suitable permutation of indices, be partitioned so that 














g Ay1 0 cae ae A; p41 $x. Ay, 
0 Ags 0 
;. is . 
: om 
(6.2) A= Aes tte Ay,» Ay p41 eee Ay, 
Alps ak As, p+1 Ay+1,p41 0 ie 
0 Ayiept2 0 
lee Aj, eee Aj 0 0 eee A, . _ 


where the diagonal blocks A;; are ,;Xxm,; matrices, m;21 for 157s, and 


s 

2.”j=N: Arms, GATES, and ZonDEK [1] extended the original analysis of 
j=1 

Younc [26] and FRANKEL [6] to what is called the successive block overrelaxation 
iterative method, and it can be verified that the assumptions on the matrix A 


above are sufficient for the application of their theory. Let the vectors % and & 
of (6.1) be partitioned in a manner compatible with (6.2). Then, we can write 
(6.1) as 
s—p 
Ajj Xj+ UAj,p+eXpsn= Ky, 1272?, 
(6.3) pine 
ApsipriXpry t+ 2 Aor Xe = Kosi 1S7Ss—p. 


The square submatrices A;;, 17s, are evidently non-singular, so that if 
the block diagonal matrix C is defined by 


A,,0 .«..0 

® Bee & 
(6.4) C= ha: . 

; ne 

o * A. 


* Mr. Davip FeEtncotp of Electricité de France (Paris) has recently proved 
(private communication) that the ratio {t[2%,]/t[R,,(B)]} is strictly increasing for 
m>1, 0<e@<1, which strengthens Theorems 2 and 3. 
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then C is also non-singular. Now, C-!A has unit diagonal entries, and we define 
the matrix B as 











(6.5) CjAA=I-B, 
so that the matrix B has zero diagonal entries. More precisely, B has the form 
hg one 0 By p41 eee B, 7 
. ‘ | ° > 
0 we 'B vie Tes 
(6.6) B= atid ai IBS 
Bosi1 eee By 41,9. 0 eee 10) 
; ; ¢ : 
BD ar Re Or eee 
With the definition of the matrix B in (6.5), (6.1) becomes 
(6.7) ¥= BE+ Ck, 


The successive block overrelaxation iterative method applied to (6.7) is 
defined by 


s—p 
xt) =o [= Bi pinXpn + Ajj Kj — xm] +X}, 1575, 
o4) (m1) ; m+1) -1 (m) m) 
Xptj = py By tik xf + Ap i,p4j Kp sj — xy + Xfi, 
; isjss—}, 
where the X{, 1<j<s, are given vector components of the given initial vector 


guess %, The optimum value of w is computed from (4.3), where the NxN 
matrix B is defined in (6.5). Equivalently, the iterations of (6.8) can be defined 


also from 
* 
6-9) Xj) = w[XPt) — XM] +. X,  1SiSs, 
where 
* a s—p ‘ 
A, ,X\"* = — LA; psnXphe + Kj, 19/3, 


(6.9') : ; 
Ap+j,p+i xpi” sad — ZAR e+) XY + K54; isjss-—?>. 


Equation (6.9’) shows that, in order to carry out the successive block over- 
relaxation iterative method, we have assumed that matrix equations of the form 


can be solved directly for X;, given G;. 


The matrix C defined in (6.4) is symmetric and positive definite, so that 
the matrices C! and C~4 are uniquely defined. Forming the product C~4AC~, 
we see that this product matrix also has unit diagonal entries, and in analogy 


with (6.5), we define the matrix B by 
(6.11) C-1AC-t=I-B. 
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The matrix B has the same cyclic form as does B of (6.7), and since C-$AC~4 


is a definite and symmetric matrix, it follows from (6.11) that B is symmetric 
and convergent. Defining 


(6.12) Chi mF, Cohhal 
and using (6.11), (6.1) reduces to 

(6.13) ¥ = BY +1. 
The matrix B is similar to B, with 

(6.14) B=C!BC-4. 


Summarizing, we have reduced our original problem (6.1) by means of a change 
of variables to the form (6.13), where B is symmetric, cyclic, and convergent. 


We now apply the cyclic Chebyshev semi-iterative method to the numerical 
solution of (6.13). If the vector components yp", 1<7S}, are given, then 


a 

(2m+1) __ - (2 2 1 (2 1) 

You = amin] Y Bp ign VOM + Ly ey — YET } + Yi 
k=1 


(6.45) isjss-—}, 





¥te+ = aay {SB pn sin” +L,— ype) + vem, 
i<j, m20, 


defines the cyclic Chebyshev semi-iterative method. [he w’s are calculated 


from (2.10), where o(B)=o(B), since B is similar to B. To show now the 
relationship of this method to the successive block overrelaxation iterative method 
of (6.9) —(6.9’), we write (6.15) equivalently as 


( 6) [yjtne9 = Oro (yen +2)... ¥e47~") + o> id i<js gees p, m > 0, 
1 
* 


| yams = em; x al 8) Y r™) + yp", 1<j= b, m> 0, 


where 
|» Veet a -> 8, By. inYeM+Ly.; ISfSs—p, m2, 
(6.16') 


s-- ~ 


* p 
_ ; 2) at ys B 


2 eee +L,  i1sis?. m= 0. 
By using the definitions of (6.11) and (6.12), it follows that (6715) is equivalent 
to (6.9)—(6.0’), provided the proper m’s are used in each step. In essence then, 
we can indirectly carry out the modified Chebyshev semi-iterative method 
of (6.15) by performing the iterations 


* 
my [XP = Om (XP — XPV) + XPV, 1STSs—p, mao, 
{(6.9"") é 
A ' ) Mem 2 (x\" 1) 9 x) os xX, 1 Ss ) — p, m a QO, 


* 
where Y0", 1 /-<s, is defined in (6.9’). 








Vel 














Chebyshev semi-iterative methods. II 165 
ef m) 


ion denote the error vector for 
Es m-+1) 


In terms of spectral norms, let dim = ( 


the m-th complete iterate of (6.15), relative to the matrix B. From §5, we can 
state that 


(6.17) 9) < [P,(B)] [8], mZo. 
a (2m) 

Ifo = fesenss) is the error for the m-th complete iteration of (6.9”), relative 
Xs 


to the matrix B, then from C!¥ =¥, we have 
(6.18) |CLE™ | < c[P,(B)]-|CHF], mo. 


Since both C+ and C~? are symmetric and positive definite, their spectral radii 
coincide with their spectral norrhs, so that 


(6.19) |C#z] Se (C4 |e], 
and 

as Chal ll 
(6.19 [cta}z EL, 


where equality is possible in both (6.19) and (6.19’). Combining these inequalities, 
we have* 


(6.20) |e | < r[P,(B)] [o(C-4)-e(C4] |e],  mzo. 


From the results of §5, of the iterative methods studied, the cyclic Cheby- 
shev semi-iterative method of (6.16)—(6.16’) gives the smallest spectral norm 
relative to the matrix equation of (6.13). Since actually iterating by means 
of (6.9’)—(6.9’’) is equivalent to iterating by means of (6.16) —(6.16’), we arrive 
at the conclusion that the iterations of (6.9’)—(6.9’’) are quite efficient. 

We now list some well known problems which numerically give rise to matrix 
equations of the form (6.1), where the matrix A can be written as in (6.2). 
Clearly, such a list would include all problems which have been previously 
rigorously attacked by the successive overrelaxation iterative method, and its 
extensions. 

A. Dirichlet problem in a plane bounded region, using a fiye point approxi- 
mation to LAPLACE’s equation. Here, one can use successive point overrelaxation 
[6, 19, 26], successive line relaxation [/, 3, 8], or successive two line overrelaxation 
[12, 21], all these methods corresponding to different partitionings of the matrix A. 

B. Dirichlet problem in a plane bounded region, using a ninepoint approxi- 
mation to LAPLACE’s equation. Here, one can use successive line overrelaxation 
[1, 21], or successive two line overrelaxation [8, 12, 21]. 

C. Biharmonic problem in a plane bounded region, using a thirteen poiut 
approximation to the biharmonic equation. Here, one can use successive two 
line overrelaxation [8, 12, 21]. 





* The quantity (9(M-")) -@(.M) is also called the P-condition number (17) for a 
non-singular matrix ./, and is denoted by P(J/). 
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In all these problems, the cyclic Chebyshev semi-iterative method can 
be used, and from the results of §5, this iterative method gives the smaller 
spectral norm than the successive overrelaxation iterative methods. 

Finally, matrix equations (6.1) do arise in which the matrix A cannot, after 
a permutation of indices, be put into the form of (6.2), even with proper parti- 
tioning. For example, in [21], a class of iterative methods called primitive 
iterative methods are studied, and for this class the results of § 2—3 are pertinent. 
It should also be said that even though the matrix A of (6.1) can be partitioned 
so that (6.2) holds, it can very well be the case that the diagonal blocks 4, ;, 
which must be directly inverted, as in (6.10), in order to apply the cyclic theory, 
are either too large in size or too complicated to permit such direct inversion. 
Thus, in solving the Dirichlet problem in a plane bounded region, if one chooses 
to use a nine point approximation to LAPLACE’s equation, but is unwilling to 
directly invert more than’oné equation in one unknown, a primitive iterative 
method results. Here too the results of. § 2—3 are pertinent. 


§ 7. Numerical Results 
We will now give results from both algebraic and numerical investigations, 
comparing the Chebyshev semi-iterative method with variants of the suc- 
cessive overrelaxation iterative method in the cyclic case. First, if € is the 
vector error of our initial estimate Xo of the unique solution of A x oh, and 6m) 
is the error vector for the m-th complete iteration, then from (5.6’), 


Tea <rt [H, (B)] : m>oO. 





i jery = 
Thus, if m(6) is the least positive integer for which 
(7.2) t{[P,(B)|}S6, O0<d<1, 


then m(6) is an upper bound for the number of iterations necessary to reduce 
the Euclidean length of the initial error by the factor 6. Let m, (6), m,(6), mg (6), 
and m,(6) denote m(d) when P,,(B) is taken to be respectively P,(B), R,,(B), 
T,,(B) and 2%. The tables 1—4 give m;(6) for various values of 6 and o(B). 






































Table 1. w,=1.8195; @=0.99507 Table 2. w,=1.93419; @=0.999421 
6=0.1 | 6=0.05 | 6=0.01 6=0.005| 6=0.001 6=0.1 | d=0,05 6=0.01 |6=0.005| 6=0.001 

m,(6) | 18 | 21 | 29 | 33 | 41 m,(6)| 50 | 60 | 84] 94 | 117 
m,(6) | 22 | 27 | 36 | 40 | 49 m,(6) | 64 | 77 | 104 | 116 | 142 
m,(6) | 23 | 27 | 37 | 41 50 ms(6) | 65 | 77 | 105 | 116 | 143 
m,(6) | 37 | 44 50 | 54 63 m,(d) | 126 | 137 | 163 | 174 | 200 
Table 3. w,=1.95218; @(B)=0.9997 Table 4. w,=1.97211; @(B)=0,9999 
6=0.1 | 6=0.05 6=0.01 8=0,005| 6=0.001 6=0.1 | 6=0.05 | 6=0.01 |6=0,005| 6=0,001 

| 

m,(6) | 69 | 93 | 116 | 130 | 163 m,(5) | 119 | 143 | 200 | 225 | 282 
m,(6) | 89 | 106 | 144 | 160 | 197 m,(d) | 154 | 183 | 249 | 277 | 341 
m,(6) | 89 | 107 | 145 | 161 | 198 m,(6) | 154 | 184 . 250 | 278 | 341 
m,{6) | 182 | 198 | 234 | 250 | 285 m,(6) | 337 | 364 426 . 453 | 514 
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It is interesting to point out that the following 


(7.3) lim mi) — 1 


can be proved* for all 7,7. Thus, the cyclic Chebyshev semi-iterative method 
cannot require, for very small 6>0, percentagewise substantially different 
numbers of iterations than those required by the successive overrelaxation 
method. However, for slowly convergent problems, @(B) close to unity, there 
is a considerable advantage in using the cyclic Chebyshev in practical problems 
where 6 is approximately 107°. 

The above, while constituting an algebraic study of the various methods, 
does not give a complete picture of the comparison between these methods, 
because of the inequalities in (7.1) and (7.2). Although equality is attainable 
in (7.1) and (7.2), so that the numbers of iterations in Tables 1—4 are also 
attainable, we include results of numerical experiments in the cyclic case. In 
an effort to make the numerical experiments as up-to-date and practical as 
possible, we have compared the successive two line over-relaxation iterative 
method [8, 12, 21] with the cyclic Chebyshev semi-iterative method for the 
same partitioning of the matrix A of (6.2), in the numerical solution of 
self-adjoint partial differential equation 
(7.4) — div{D (x, y) grad u(x, y)} +o(x, y) u(x, y) = S(x,y), 


in a plane bounded region 92, where D and o are positive in 2, with boundary 
conditions 
bu(x,y) _ 


(7.5) tt = 0 


on the boundary J’ of 2. These numerical problems involved non-constant 
mesh spacings. In part 1 of each problem, S (x, y) = 0, so that the unique solution 
of the matrix problem of (6.1) is the null vector. With all the components of. 
the initial vector % taken as 103, the iterations were continued until the maximum 
component of %) was less than or equal to 6. In part 2 of each problem, S (x, y)=1 


and with the same initial vector % as in part 1, the iterations were continued until 
+1) _ (m+1) __ (m) 
(7.6) Ret) — > | x” xf” | 


satisfied R@™+) < 6R), 

Because the norms of both parts of the experiment are convenient in com- 
putation, but not the spectral norms of the comparison, the following comparisons 
are of interest in connection with the relationships exhibited in §6. The suc- 
cessive overrelaxation method is applied to two different orderings of the matrix 
A: the first, the o, ordering, is the ordering of (6.2); the second is the ‘‘normal”’ 
ordering in which the double lines of mesh points are swept serially through 


the mesh. 





* See [7] for details. 
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Table 5. Problem A 121 interior mesh points, w,=1.8195 
Part 1 
Method 6=0.1 | 6=0.01 6=0.005 6=0.001 
Cyclic Chebyshev . . . + 28 31 39 
SHELDON’s Modified SOR | 21 35 39 48 
SOR with ,, o, Ordering .| 20 34 37 46 
SOR with w,, Normal Ordering . 17 30 34 43 
Part 2 
Method 6=0.1 6=0.01 6=0.005 
| 
Cyclic Chebyshev . . . 30 | 41 44 
SHELDON’s Modified SOR 39 52 55 
SOR with w,, 0, Ordering ; 33 te 46 50 
SOR with w,, Normal Ordering . 32 | 45 | 49 


Table 6. Problem B 667 interior mesh points, w,=1.93419 














Part 1 
Method 6=0.1 | 6=0.01 6=0,005 6=0,001 
Cyclic Chebyshev . . . 71 | 106 110 133 
SHELDON’s Modified SOR 88 123 134 157 
SOR with w,, o, Ordering 93 127 137 160 
SOR with w,, Normal Ordering . $1 121 | 133 155 
Part 2 
Method 6=0.1 6=0.01 6=0,.005 
Cyclic Chebyshev eo 83 413 119 
SHELDON’s Modified SOR 113 147 157 
SOR with w,, o, Ordering -| 97 133 143 
SOR with wy, Normal Ordering . 91 127 137 


For references, see Part I 3,.147 (1961). 


Space Technology Laboratories, Inc. 
Los Angeles 45, California 
and 
Case Institute of Technology 
Cleveland 6, Ohio 
10900 Euclid Avenue 


(Received June 17, 1960) 

















Numerische Mathematik 3, 169—173 (1961) 


Note on the numerical integration of periodic functions 
and of partially periodic functions 


By 
L.C. Hsu 


Recently there have appeared a number of papers dealing with the error 
estimation of certain approximate integration formulas for periodic functions 
of several variables (see [1}—[9]). The principal techniques employed in most 
of the papers cited are that of trigonometric approximations as originally pro- 
posed in [4], [5] and [J], respectively. Here we shall show that a sharpest esti- 
mation for an ordinary approximation formula may even be more directly 
attained by means of the Euler-Maclaurin summation formula. Moreover, this 
note is also concerned with the problem of reducing the numerical integration 
of partially periodic functions of several variables to that of functions with less 
variables. 

In what follows we always denote for brevity Y = (x,,..., X,), Y= (Vy, -0-5 Yy)s 
AX =dx,... Ady, AV=dy,... Vy, f(X) HP (Xp, 000, Xd LUX, Y) HP (Xp. 00 Seep 
Vi,+++,¥,). Moreover, V and R always stand for positive integers, and U and 
V denote the m-cell U(OSx,S1,...,0S%,,<1) and the n-cell T(OSy, <1, 
...,O0SY,S 1), respectively. 

We shall always assume /(X) and /(X,\) to be periodic continuous func- 
tions having period 1 with respect to each of the variables x,,..., x,,. In general 
{(X,Y) may be not periodic in y,(1 S7 <7) and is therefore called a “partially 
periodic function’. 


1. First let us consider the numerical computation of the integral 


I(f) = J4(%) dX, (1) 


; ‘ cP ft ‘ 
Here all the p-th order partial derivatives -° , are assumed to exist and be con- 
° y ° cx 
tinuous throughout U with : 
Pf 
if 





<M 





a 

| @ 

p being a positive even nteger and M a positive constant. It is now easy to 
prove the following 

Theorem 1. Let N =R” and express 

1 x v 

I(\=+ >» th perry R) tev: (3) 


Ca? | 
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Then the error term Oy has the estimate 


lev| S2mM CEE (x) (4) 
where C (p) ts the C-function of Riemann. — 

The estimation given by (4) is actually very sharp. That the order O(N-?!™) 
is the best possible has already been noted by SoLopov [9] and MIn [6]. Explicit 
estimation has also been found by MIN [6], using the method of trigonometric 
approximation. But MIN’s result is inferior to (4), and it becomes meaningless 


for pm. 
Here we sketch a proof of (4). By successive applications of the Euler sum- 
mation formula (with e soa ~ as nodes) to the repeated integral J(/) and 


by means of the first mean-value theorem in the integral calculus we may finally 
find that the remainder gy as defined by (3) can be expressed in the form 


—— (1 Bo Fr (2 VP pew (i) 
0; —_—s —s 1(é poses Qaey> (5) 
1 (ze) p! > (a) ¥ 
where (&(,...,&) (¢=1,...,m) are certain points interior to U, and B, is 


known as the Bernoulli number with even index p. Actually the expression (5) 
can also be verified by using induction on m, the number of variables contained. 
(Since the evaluation involved is quite elementary, we may omit its details here.) 

Now recalling the well-known relation between the Bernoulli number B, and 


the function ¢ (pf), we see that (5) is equivalent to 


‘m , 
y= (— 1) ES (8 y > (sa) HEP. -.-288). 
Consequently we get the inequality (4) by making use of (2). 

Remark. Since the Riemann sum on the right-hand side of (3) is performed 
by the method of uniform net, it may be seen from (4) that the Monte Carlo 
method, when applied to computing IJ(f), will surely yield very satisfactory 
results. 

2. We now turn our attention to the numerical evaluation of the (m-+-n)- 


fold integral 
Jt = JI (X,Y) ax ay. (6) 


The function /(X,Y) is assumed to satisfy the differentiability condition of the 
same type as that imposed upon /(X); i.e. we have (2) with {(X) being replaced 
by /(X, Y), and U being replaced by U x V. 

A result to be stated here is that the numerical evaluation of J(f) can always 
be reduced to that of a certain (m + 1)-fold integral or of certain n-fold integrals. 


Theorem 2. Let {y,,..., Ym} be a set of integers such that y,>y_> +++ > Vm 20, 
and let M(t, Y)=/(R"t, ..., R’t, y,,..., Vy). Then for R large we have 


Ii) =ffouy)atay +0|(4)fo,()). (7) 
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In particular, if p(t, Y)=f{(R"*t, R"~*t, ..., t, yy, -.., Vp), we have 


T= X fvlar-¥)4¥+0[ (RY ool) 


where N=R™ and w, (6) = max ex np Pas~-ten9) in which Wy, ...om(8) denotes the 


modulus of continuity of the function 


PF f(y, .00. % ¥ms Vir +++ 22) (ay >0 , 2a= . p, Yev) 


Ox™ ... Axim 


with respect to the variables x1, ..., Xims 

The reduction formula (7) is actually suggested by a lemma obtained in a 
previous note [2], namely 

Lemma. For R large we have 


| fre0 dX -- i (2) al =O (+ ) (4) (9) 
U 0 


where O(t)=f(R“t,..., R’t), and the constant factor involved in the order esti- 
mation O|-] 1s independent of R (it depends, in fact, only upon the upper bound 
for the p-th order partial derivatives of {(X)). 

To infer (7) from (9), one needs only to replace {(X) of (9) by /(X, Y), and 
then integrate both sides with respect to Y over the domain V, taking into 
account the fact that the expression (9) with /(X) being replaced by /(X, Y) 
holds uniformly with respect to Y in V. 

As an application of (9) the author has previously given the following ap- 
proximation formula (cf. (8) of [2]) 


Jiax=4 > (se perro yom) t+ On (10) 


with N = R™ and by = 0|(5)']- It has been known that the estimate for dy 


cannot be improved to that of order O(R~?~*) with any e > 0. However, a slight 
improvement can still be made here. In fact we have 


n= 0f($)ay(8)) on 


where the constant factor involved in the order estimation is independent of R. 
Clearly (11) is equivalent to 


| frenax—y X¥(8)] =o[(k) onl 4)) (9) 


where p(t)=/(R"-*t, R"*t,...,t) =@(t) with y;=m—j. Comparing (12) 
with (9), we see that (12) is implied by 


LD v(e) N -fv0 ai| =0|(4)°o,(4)]. (13) 
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Let us now verify (13). As in the case treated in [2], we may expand y(t) 


as an absolutely convergent Fourier series y(¢ => C,,-e'?*"" and we have 
N h 3 
1 ‘ ’ 
N pa (x) J es 
' 


where in >’ is omitted the term C,. Clearly there is an absolute constant A> 0 
such that (cf. (6) of [2]) 





1 \(m—1)p|/ d\pP . 
(4) (+) vi)|<A (0<t<1). (15) 
Moreover, 
foe) 1 foe) 1 
yy G= Dd Sy et dt=2>d fy(t)cos(2xzkN?2) at. (16) 
n=0(mod N) jk] =1 0 k=1 0 i 


Notice that y(¢)_is of period 1 and has a continuous derivative of order p. Thus 
integration by parts gives (with # being a positive even integer) 
1 1 
fre cos (22k Nt) dt = +(5— wr) [yp (t) cos (20k Nt) dt 
Js (17) 


=+(5,x) [8 cos2akN 1) dt, 





where g(t) =R°-™ ?y'?) (t) and |g(t)|< A in accordance with (15). Denote by 
«*(d) the continuity modulus of g(t). By the periodicity of g(t) we have 


1 1+1/(2kN) 

[ ¢(0) cos (22k N 8) dt = | g(t) cos (22k N 2) dt 

0 u(ahN) | 
=— fi (t+ aN) 00S (28 Nt) dt. 


Hence it follows that 


alfa (t) cos (24k voa|=| feo — sit + px) |cos (2a kN at 


“| 


g lal," 1 
g(t)—8 (: ss iw) | < w* (se -N }* 0 cop ( sew) == 0 lo» (ze) : 
0 
where the constant factor involved in O[w,(1/R)] does not depend on R and k, ‘ 


as g(t) is a linear combination, with bounded coefficients, of the -th order 
partial derivatives of {(X). Thus from (16), (17) and (18) we get 


Least = 2m Lacan) fee )eos (2k NA) dil 


n 0 (mod N) 
1 
SO lm( p IB (actat yl =ol(; le) (3) 


Hence (13) is proved by means of (14). 





(18) 
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Having proved (12), we may therefore establish (8) by replacing /(X) by 
{(X, Y) in (12) and integrating the both sides with respect to Y over V. 

Remark 1. Both the estimates given for the error terms in the reduction 
formulas (7) and (8) are of the best possible type. 


Remark 2. Both (7) and (8) are particularly suitable for being used in com- 
puting /(f) when # is much greater than m. The integrals on the right-hand 
sides of (7) and (8) should be of course approximately evaluated by appealing 
to some ordinary numerical methods for multiple integrals (e.g. see T1ETz [10}). 
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Zur Fehlerabschatzung fiir die numerische 
Eigenwertbestimmung bei Integralgleichungen 
Von 
HELMUT BRAKHAGE 


1. Aufgabenstellung und Formulierung des Resultats 


Es sei K der durch den komplexwertigen stetigen Kern k(s,t) (OSsS1, 
OStS1) definierte Integraloperator. Man erhalt einen approximierenden Ope- 
rator H, wenn man das Integral mittels einer Quadraturformel 


1 m m 
(4) fu()dtw>Ajut) (4;>0, > 4,—1) 
0 7=1 j=1 
durch eine Summe ersetzt: 
1 m 
(2) Ku=f k(s,t) u(t) dt, Hu= > R(s,t;) A; u(t). 
0 j=l 
Es sei 


6) lel=|/Llmolrae, 


alle auftretenden Funktionen werden als stetig fiir 0<!<1 vorausgesetzt. 
Zugrunde liege das durch die Integralgleichung 


(4) xx—Kx=0 


gegebene Eigenwertproblem. Indem man das Integral mittels (1) durch eine 
Summe ersetzt, werde (4) zur naherungsweisen Auflésung in 


(5) uy—Hy=0 = (u+0) 
iibergefiihrt. Offenbar ist (5) gleichwertig mit dem Matrizeneigenwertproblem 
(6) HY (t) — Dk t) 4, yG) =0 (u +0, +=1,...,m), 

17= 


denn (5) enthalt (6), und von einer Lésung von (6) kommt man durch die Defi- 
nition 


y(s) =p (Si (st) 4;y())  (0SsS1) 


zu einer Lésung von (5). . 
Fiir den Fehler, den man begeht, wenn man die Eigenwerte von (4) nach der 
Quadraturformelmethode durch die Eigenwerte von (5) bzw. (6) approximiert, 
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soll eine Fehlerabschatzung gegeben werden. Wir setzen voraus, daB der Operator 
K normal ist und daB eine Schranke 6 fiir die Quadraturfehler 


d,(s, t) =f es, 1) k(t, t) dt — 34k t) k(t;,t) =(K — H), k(t, 2), 


d,(s, t) = fi (r,s) k(x, t) dt — EAR s) k(t,,2) 


bekannt ist: 
(7) |4,(s,2|<6, |d,(s,4)| <0. 


Es gilt dann der folgende 


EinschlieBungssatz. Ist u ein Eigenwert von (5) und ist |u|*>6, so gibt es 
einen Eigenwert x von (4), derart dap 


on am 
Vial?—8 

Bemerkung. Ist der Kern k(s,¢) hermitesch, so braucht man in (7) wegen 
d, =d, nur eine der Ungleichungen zu fordern. 


Der Beweis des EinschlieBungssatzes wird in Nr. 2 gefiihrt. Nr. 3 enthilt 
Bemerkungen zur Anwendung und Beispiele. 


Einige Bemerkungen zur Fehlerabschatzung fiir die Quadraturformelmethode 
finden sich bei H. BUCKNER ([2], S. 115) und bei L. W. Kantorowitscu ([5], 
S. 103). Die ersten expliziten Fehlerabschatzungen scheint H. WIELANDT in der 
ausfiihrlichen Arbeit [7] gegeben zu haben. Der in der vorliegenden Arbeit ver- 
wendete Ansatz schlieBt sich eng an die Arbeit [7] des Verfassers iiber die nume- 
rische Behandlung von inhomogenen Integralgleichungen an. 


Es sei darauf hingewiesen, daB die Formel (8) die besten Fehlerschranken 
jeweils fiir die dem Betrage nach gr6éBten Eigenwerte wu liefert, die im allgemeinen 
vor allem interessieren und,auch tatsdchlich die gréBte Genauigkeit besitzen. 
Gerade fiir diese Eigenwerte liefern die Abschatzungen bei H. WIELANDT [7], 
da sie jeweils fiir alle Eigenwerte gleichmaBig gelten, nur grobe Schranken. Man 
vgl. hierzu die in Nr. 3 durchgefiithrte Anwendung der Abschatzung (8) auf die 
auch in [7] behandelten Beispiele, die durchweg eine erhebliche Verbesserung 
gegeniiber den dort gefundenen Fehlerschranken erméglicht. 


(8) lu—x|s 


2. Beweis des EinschlieBungssatzes 


Fiir die Lésung yu, y von (5) gelte |u|?>6. Setzt man diese Lésung anstelle 
von x, x in (4) ein, so ergibt sich eine Defektfunktion 


(9) r=yuy—Ky. 


Der folgende Beweis stiitzt sich auf einen allgemeinen EinschlieBungssatz, der 
von H. WIELANDT [6] fiir normale Matrizen angegeben und von H. BUCKNER ([2], 
. 1 3* 
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S. 32) auf normale Integraloperatoren iibertragen wurde. Danach folgt fiir be- 
liebige «7, y aus der Gleichung (9), daB K einen Eigenwert x besitzt mit 


II7ll 
10) i—x|sS- 
y Iv 
Unter Benutzung der folgenden beiden Ungleichungen, die anschlieBend her- 
geleitet werden, 


/ (a 


(11) hsp (2A bl? ' 


(12) v= > sly] se D Aslyyl 
j=1 jul 


ergibt sich 





I= 5 Asly,l2+ (bo 3 Ay lot) = (1 a) S Adal 
=I j=1 
und damit ? 


(13) rl - 6 1 3 


IA 


vl “lal yf ~ Vines 
| [w|? 
Aus (13) und (10) folgt dann die zu beweisende Ungleichung (8). 
Zum Nachweis fiir (11) formen wir vorbereitend (9) um mit Hilfe von (5) und 
unter Benutzung der in Nr.1 eingefiithrten Funktion d, (s, ¢)=(A — H), k(t, t): 


=(«—K)y=(u—#)y+(H—K)y=(H—A&)y 


m 


os ; (H—K)Hy=—— Dy 64) A; Yj. 


Die Ungleichung (11) folgt dann mit (7) auf Grund der Schwarzschen Un- 
gleichung: 


1 Se _— 
<i Alas 4 ye. Pao. 





< t)) Ean 
FYE 2 — Wibed: 


Entsprechend formen wir fiir den Beweis von (12) zunachst wieder mit Hilfe 
von (5) und unter Benutzung der in Nr.1 eingefiihrten Funktion d,(s, ¢) um: 


br > 4)ll= ine (>P- Sa4leont) 


=F > A; iVi Ay Vn de (t;, t) - 


i,k=1 


Die Ungleichung (12) ergibt sich hieraus nach (7) wieder mit der Schwarzschen 
Ungleichung: 


ly? — 24; lyjl*]S7 











Sl AAuléattntale|/S AcAaloelt bal 








antici aeRO a stn ak ease 


ee 











et as 





Fehlerabschatzung fiir die numerische Eigenwertbestimmung 177 


3. Beispiele 
Wir beschranken uns jetzt der Einfachheit halber auf hermitesche Kerne. 
Mit Hilfe von Ableitungsschranken ™, fiir k(s, t) - k(t, ¢): 


al 


(14) J (k(s, ) R(t, d)| <M, (0Ks,t<1) 





kann man Schranken 6 in (7) auf Grund der bekannten Abschatzungsformeln fiir 
Quadraturfehler erhalten; z.B. (m = Stiitzstellenzahl) 


Lhe M, 
(15a) Trapezregel O= 5 Wea i)F’ 
; i , oe M, 
(15) re Se 
R . P< m4 M, m 
(15¢) GauBsche Formel: 6 = (2m)!3 (2m-+-1) ° 


Fiir periodische Probleme mit analytischem Kern ist die folgende Fehlerab- 
schatzung niitzlich: Ist w(z), z=r-+7», reell fiir reelle z, periodisch mit der 
Periode 1 und analytisch in dem Streifen |7| <A, so gilt fiir den Quadraturfehler 
der Rechteckregel 


1 
m 


E(u) -: u(t) dt — :. p2 u(Z) 
nach P. Davis [4]: 
(16) |E(u)| < 2e7277"(4 — e274") Max |u(r+7A)|. 
Erfiillt der Kern k(z, ¢) fiir OS¢<1 die genannten Voraussetzungen und ist 
(17) Max |h(r+i4,t)| SN, 
so kann man nach (16) (mit «=k/(s, t) k(t, t)) setzen: 
(18) 6 = 2e7 274m (4 — e874) —-1 NB. 


Beziiglich der Bestimmung von Schranken 6 sei auch auf die Arbeit [7] hinge- 
wiesen. 
1. Beispiel. Die Eigenwertaufgabe 
(19) z+ x(s)= fe x(t) dt 
ergibt bei der GauBschen Quadraturformel mit m=} Stiitzstellen die Naherungs- 
werte 
fy == 1,353025, My = 0,105 946, Mz = 0,003 439. 


Nach (15c) mit M,=2' - e? ist 6=3-1074. Der EinschlieBungssatz (8) 14Bt sich 
anwenden auf #,, «42. Nach ihm existieren Eigenwerte ~,, ~, von (19) mit 


(20) [ty — 4% |S 3-104, | M2 — %.| S3- 107%. 
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In der Tabelle (21) sind entsprechende Abschatzungen angegeben fiir die von 
H. WIELANDT [7] behandelten Fille der Trapezregel mit m= 148 sowie der GauB- 
schen Quadraturformel mit m=5,. auBerdem fiir die Simpsonregel mit m= 16. 
Die Stiitzstellenzahlen sind dabei so gewahlt, daB die Abschatzungsformeln von 
H. WIELANDT [7] in allen drei Fallen |u;—x;|<0,01 als gleichm&Bige Fehler- 
schranke fiir alle uw; ergeben. Die benutzten Werte von 6 ergeben sich fiir 
(21a, b,c) nach (15a, b, c) zu d=1,2-10-*, 6=2,7-10°5 und 6=4,0- 10°. 
Die erhebliche Verbesserung der Abschatzung wird vor allem durch die Form 
der Abschatzung (8) erméglicht, die der Tatsache Rechnung tragt, daB die 
betragsgr6Bten Eigenwerte im allgemeinen auch mit der gréBten Genauigkeit 
approximiert werden.* 


—4#1S 
l4—4|S | |4a—%|S jeder Eo 





(21a) Trapezregel m=148 | 1,2-10-4 | 1,2-1073 41072 
(21 b) Simpsonregel m = 16 27-1075 | 2,7-10°° 10°? 
(21c) GauBsche Quadraturformel m = 5 4,0:10°* | 4,0-10°§ | 0,2-107? 











2. Beispiel. Fiir die numerische Behandlung der Eigenwertaufgabe 
1 


(22) “+ x(s) = / 5 y(t) dt 


13—12cos 2n(s+t 
0 





mit der Rechteckregel mit m= 36 Stiitzstellen gibt H. WIELANDT |u;—x,|<0,1 
als gleichmaBige Fehlerschranke an. Nach Formel (18) ergibt sich 6=2,5 - 10-* mit 


a ae AZ 
(23) X= 13—12cosh22A (cosh 22 4< 3), 


wobei A durch 
—2nA__ a\2 
ities he) 
bestimmt wurde. (Man kommt dadurch dem fiir die Abschatzung optimalén 
Wert von Ad sehr nahe.) Der EinschlieBungssatz (8) liefert dann z.B. fiir den 
betragsgr6Bten Naherungswert 449=1,00000089 die Existenz eines Eigenwertes 
% mit 


(24) | Mo — %o| S3- 10-8. 


Man erkennt die deutliche Verbesserung gegeniiber der gleichmaSigen Fehler- 
schranke |u;—,;| 0,1. Der wirkliche Wert ist x,=1. DaB auch (24) den wirk- 
lichen Fehler nur grob abschiatzt, liegt an der speziellen, fiir die numerische 
Behandlung ungiinstigen Beschaffenheit des Kerns in (22). 





* Es sei darauf hingewiesen, daB L. Cotvatz ([{3], S. 491) — unabhangig von der 
Quadraturformelmethode — mit geringem Au {wand durch einen einfachen Naherungs- 
ansatz fiir die erste Eigenfunktion zu einer Festlegung von x, mit einem Fehler von 
=0,53 % kommt. 
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Dégénérescence dans les approximations 
de Tschebyscheff linéaires et discrétes* 


Par 
J. DESCLOUX 


1. Introduction 


Soit F(x) une fonction réelle que nous voulons approcher par 
f(x) = a, fy (x) + a, f(x), clay x a, f, (x). 


Les fonctions /;(x) sont données, tandis que les a; sont des paramétres 
variables. F(x) peut étre une fonction de plusieurs variables et dans ce cas x 
représente l’ensemble des variables indépendantes. r(x) =f (x) — F(x) est l’erreur 
de l’approximation. 

Soit E un ensemble de m valeurs x; (t:=1,..., m); la déviation 9 de F(x) 
sur E est définie par 


ry 


o= Inf. max |r(x;)| 
Q;...€n t=1,...m 
f(x) sera meilleure approximation au sens de Tschebyscheff de F(x) sur FE, si 
max |7(x;)| =. 
Introduisons des notations vectorielles: 


. 


g; est un vecteur de m composantes (f, (x;), fo(%;), ---» fn (%i)) 
#% est un vecteur de m composantes (a,, ag, ..., @,). 


(y;, «) désigne le produit scalaire des deux vecteurs. g; est le vecteur caractéristique 
de x;. 

Si les vecteurs g; (i=1,..., m) sont en position générale, c’est-a-dire si 
quelconques d’entre eux ont le rang m, nous dirons que le probléme n’est pas 
dégénévé**, HAAR*** a démontré le théoréme suivant: 

Si le probléme n’est pas dégénéré, il y a une et une seule meilleure approxi- 
mation pour chaque fonction F(x). Dans le cas corttraire, pour chaque fonction 





* Cet article est le résumé d’une thése présentée a l’E.P.F. a Zurich |#]. Je 
remercie vivement M. StT1EFEL dont les conseils et les encouragements m’ont été trés 
précieux. 

** Le terme «dégénéré» est emprunté a la programmation linéaire; dans [2], 
E. STIEFEL a montré comment on peut ramener notre probleme d’approximation 
a un probleme de P.L.; la dégénérescence du probleme d’approximation entraine 
celle du probléme de P.L. 

**x* Cf. (3); le théoréme est encore vrai si E n’est pas un ensemble fini, pourvu 
qu’il soit borné et fermé et que les fonctions F(x) et f(x) soient continues sur E. 
Notons que si le probléme n’est pas dégénéré, on dit qu'il satisfait a la conditicn 
de HAar. 
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F(x), il y a au moins une meilleure approximation et il existe une fonction F(x) 
pour laquelle il y en a plusieurs. 

Dans [1], STIEFEL a étudié le cas non dégénéré 4 l’aide de |’algorithme 
d’échange. Nous nous proposons de généraliser ses résultats. Nous montrerons 
d’abord quelques propriétés des approximations dans le cas de dégénérescence, 
puis nous exposerons un algorithme d’échanges généralisé. 


2. Exemples 
Exemple 1. F(x) =4x+1; f,(x) =1; f.(x) = x? 
%,=— 0,25; %,=1; %=2; % =— 0,5; * =0,5 
Y,=Y; et par conséquent le probléme est dégénéré*. 


C’est dans les approximations de fonctions de plusieurs variables que l'on 
recontre le plus naturellement des cas de dégénérescence. 


Exemple 2. F(x,y) =24y? +3 xy—3%*; fi(x,¥) =1; fe(*%, y) = %3 b(% y= 
E se compose des points: (0, 0); (0, 1); (0, —1); (4,4); (4, —1). 


Les vecteurs caractéristiques de 3 points passant par une méme droite du plan 
x, y ont le rang 2; le probléme est donc dégénéré. 


3. Notions de base 


Un ensemble de (+ 1) points Rc E forme une référence, si le rang des vecteurs 
caractéristiques des points de R est m. Pour simplifier les notations posons 
R=(%,..., X%,41). R est une référence stricte si g,,..-,P,4, sont en position 
générale, c’est-a-dire si le rang de m vecteurs quelconques parmi qj, ..., Pn+41 
est n. 

Une approximation /(x) est une approximation de référence sur R, s'il existe 
les coefficients ¢,,..., €,4,, qui ne sont pas tous nuls et tels que 

1. signy(x;)=signe; pour tout e;+ 0. 

n+1 
2. 2 €;9;=0. 


Un ensemble de (k+1) points C=(x,,..., %,4;)C E forme un cadre si: 


1. rang (q,,---, Peri) =F. 
2. & vecteurs quelconques parmi 9, ..., Y,4, ont le rang k. 


Une approximation {(x) est une approximation de cadre sur C, s’il existe 
les coefficients ¢,, ..., €,4, non nuls tels que: ‘ 
1. sign (x,) = sign e;. 
k+l 
a ue 9; =0. 


Remarques. 1. Le probléme est non dégénéré si et seulement si toutes les 
références contenues dans E sont strictes. 

2. Une référence R contient toujours un et un seul cadre C. II est formé 
des points correspondant aux coefficients non nuls de la relation linéaire entre 





* Si l’on choisit pour /,(%),...,/,(#) toutes les puissances successives de +z, 
le probléme n’est jamais dégénéré. 








ertheless 
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les vecteurs caractéristiques de la référence. Une approximation est de référence 
sur R si elle est de cadre sur C et réciproquement. 

Pour interpréter géométriquement ces relations, considérons les équations: 
(y;, %) =F (x;) i=1, 2,..., m. Chacune d’elle décrit un hyperplan #; dans l’espace 
E* avec les axes de coordonnées 4, ..., @,. Un point « de cet espace détermine 
une approximation. Soit d; la distance de « a l’hyperplan #;: 

7 (x,) = di (gi, 9) 
L’erreur est donc proportionnelle 4 d;. Les hyperplans représentant les points 
d’une référence stricte forment un simplex dans E”. « est a |’intérieur du simplex 
si et seulement si l’approximation correspondante est une approximation de 
référence (cf [1], p 2) 

Les figures 1, 2, 3, 4 illustrent l’exemple 1. Aux points %,,..., x; des figures 
2 et 4 correspondent les droites #,,...,,. Aux points H de la figure 1, G, et G, 
de la figure 2, correspondent les approximations A, g,, g,. Les points %,, %2, %s 
forment une référence stricte; 4 est approximation de référence sur %,, x2, %3 
parce que H est a l’intérieur du triangle de cétés ~,, p., p3. Les points x2, %4, %5 
forment par contre une référence qui n’est pas stricte, dont le cadre est x4, x5; 
£1» 2 sont des approximations de cadre sur x4, %5. 


4. Quelques propriétés * 


Considérons des approximations /(x) de F +) sur E=(x,,..., %); @ est la 
déviation de F(x) sur E. 
Supposons d’abord que E est’ un cadre C. Les vecteurs g,..., Y,, ont le 


rang m— 1 et sont liés par la relation: 


€1 Py + le Po t+ °° + ln Pm = 0 é;+ 0 $= 4,...,%. 


~ Soit encore une approximation quelconque /(x) avec l’erreur r(x) =/ (x) — F(x). 


Théoréme 1. La déviation g@ de F(x) sur C satisfait a l’équation: 

m ™ 

Led e=|DLer(xa}. 
Deux cas particuliers sont intéressantes: 
a) f(x) =0: Dle|e=|LeF(*,)|. 
b) /(x) est de cadre sur C: >) | e;| oe = Dd | e,| |r (x,) |. 
Dans ce dernier cas 9 est une moyenne pondérée des valeurs absolues des 

erreurs et par conséquent: 
min |7(x,)| S @ S max|r(x,)|. 


On a le signe d’égalité si toutes les erreurs sont égales en valeur absolue; on en 
déduit le théoréme 2. 

Théoréme Z. Pour que /(x) soit une meilleure approximation sur un cadre C, 
il faut et il suffit: 

1. f(x) soit approximation de cadre sur C. 

2. Les erreurs soient égales en valeur absolue. 





* On trouvera les démonstrations complétes dans [1] et [4]. 
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Si le cadre est une référence, le probléme n’est pas dégénéré et par conséquent 
la solution est unique. Dans l’exemple1, h=1,28+2,28x? est la meilleure 
approximation sur la référence x,, x2, x3; les figures 1 et 2 illustrent respective- 
ment les deux conditions du théoréme 2. 

Le cadre x4, x, n’est pas une référence; les coefficients des meilleures approxi- 
mations satisfont a l’équation a,+0,25a,=1. C’est la droite pointillée de la 
figure 3; il lui correspond toutes les paraboles d’axe OY passant par R et Q 
(fig. 4). 

Nous revenons maintenant au cas général ou E est quelconque en supposant 
seulement qu’il contient au moins une référence. 


Théoréme 3. I] existe au moins un cadre C ¢ E sur lequel la déviation de F(x) 
est égale a la déviation sur l’ensemble entier. Un tel cadre est dit maximal. 

I] est clair que l’ensemble des meilleures approximations sur E ne peut étre 
qu’une partie de l’ensemble des meilleures approximations sur un cadre maximal. 

Appelons T l’ensemble des vecteurs: de coordonnées 4), ..., @,, correspondant 
aux meilleures approximations sur E et soit. le rang de l’ensemble des vecteurs 
caractéristiques des points appartenant a un cadre maximal. 


Théoréme 4. T est situé sur un hyperplan de dimension —k et n’est pas 
compris dans un hyperplan de dimension inférieure. 

Une meilleure approximation /(x) sur E est dite «extréme» s'il existe une 
référence RCE telle que: 

1. f(x) est une meilleure approximation sur R. 

2. Les erreurs aux points de la référence sont égales en valeur absolue a la 
déviation de F(x) sur E. 


Théoréme 5. T est l’enveloppe convexe des vecteurs dont les coordonnées 
a,,..., 4, définissent les meilleures approximations extrémes. 

Considérons dans |’exemple 1, les meilleures approximations sur la référence 
%_, X4, X5; elle contient un seul cadre x,, x; qui est donc cadre maximal. T doit 
étre formé d’un segment de droite, dont les extrémités G, et G, correspondent 
a deux meilleures approximations extrémes g, et g, (figures 3 et 4) ; 2, = 0,33 + 2,66 x?; 
£2=—1+8x*. Toute parabole d’axe OY passant par R et Q, dont l’erreur en 
%, en valeur absolve est plus petite que 2 est une meilleure approximation. 


5. Algorithme d’échange 


Dans [1], STIEFEL décrit un algorithme (que nous appellerons restreint) per- 
mettant de calculer effectivement la meilleure approximation si le probléme n’est 
pas dégénéré. 

Considérons une fonction F(x) 4 approcher sur un ensemble fini E. Nous 
supposons d’abord que toutes les références sont sérictes, c’est-a-dire que le 
probléme n'est pas dégénéré. 

Soit une référence RCE et x, un point de E n’appartenant pas a R. 


Théoréme 6. (Théoréme d’échange) Si / (x) est une approximation de référence 
sur R, il existe un et un seul point de R que l’on peut échanger avec x, de fagon 
a ce que /(x) soit encore de, référence sur la nouvelle référence (cf. [J], p. 4). 








ne ee 
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Le point H de la fig. 1 est a l’intérieur du triangle ~,, p,, p,, donc h(x) est 
une approximation de référence sur x,, %,, %3; H est encore a I’intérieur du 
triangle obtenu par l’échange de x, et x,. 

Supposons que /(x) soit une meilleure approximation sur R avec une déviation’ 
@ et que |7(x%»)| >o. La déviation sur la nouvelle référence, qui est d’aprés le 
théoréme 1 une moyenne pondérée des valeurs absolues des erreurs, est plus 
grande que g . On en déduit l’algorithme suivant: on choisit une référence quel- 
conque R sur laquelle on détermine la meilleure approximation; on calcule les 
erreurs résultantes en tous les points de E; si la plus grande des erreurs en valeur 
absolue est égale 4 9, nous avons la solution du probléme; sinon on échange 
le point d’erreur maximale. On obtient ainsi une suite de références sur lesquelles 
la déviation croit 4 chaque itération. La meilleure approximation sur la derniére 
référence est aussi la meilleure approximation sur l’ensemble entier. C’est un 
cas particulier du théoréme 3. 

Revenons au cas dégénéré. Le théoréme 6 n’est plus valable; on montre en 
effet que l’échange est toujours possible, mais pas. nécessairement univoque. 

g, (fig. 3) est une approximation de référence sur %,, %3, %,; on peut échanger 
x, soit avec x, soit avec x3; g, est en effet approximation de référence sur ces deux 
références. 

Supposons qu’une référence R’ obtenue par échange a partir de R ait le 
méme cadre que R; les déviations sur R et R’ sont égales: un tel échange est dit 
« statique ». 

g» est de référence sur R= (x4, %;, %2) et sur R’=(x,, X%;, X3) qui est obtenue 
par un échange statique. 

Considérons une référence R=(x,,..., %,4;) de cadre C=(x,,..., x); les 
vecteurs caractéristiques sont liés par la relation linéaire 


C1 Py + lo Pot +& QP, =O 


remplagons g, par gi=G1— € (Cera Pasat?** ni Pnsi) € >O ¢;+0 ce qui peut 
étre interprété comme un changement de x, en x; avec F(x,) =F (x;). La référence 
perturbée est stricte; nous pouvons. la considérer comme référence initiale de 
l’algorithme restreint: 

Théoréme 7. Il existe des coefficients c; et une valeur ¢, tels que toutes 
les références obtenues par l’algorithme restreint sont strictes pour 0<e< &j, 
pour autant que les points x}, %),..., x, ne soient pas échangés; les points 
échangés sont les mémes pour toutes les valeurs de ¢ comprises entre 0 et & 9. 

Si l’on fait tendre ¢ vers 0 dans la suite des approximations définies par le 
théoréme 7, on obtient a la limite des meilleures approximations extrémes sur 
les références du probléme initial; les échanges sont statiques puisque toutes 
les références ont le méme cadre et une méme référence ne peut pas apparaitre 
deux fois dans la suite des échanges; le procédé peut se terminer de deux maniéres: 
ou bien on obtient la solution finale, ou bien on aboutit 4 un échange non statique ; 
dans ce dernier cas nous dirons que la suite des échanges forme une étape. 


Théoréme 8.* Soit /(x) une approximation extréme sur R avec une déviation 
0 et x telle que |7(x»)| >o. Si %» peut étre échangé avec un point de R par 


* Pour la démonstration des théorémes 7 et 8 voir [4]. 
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un échange non statique, la déviation sur la nouvelle référence est plus grande 
que 0. 

Les théorémes 7 et 8 forment-la base de /’algorithme d’échange généralisé. 
Au début d’une étape il faut choisir les coefficients c;, appelés coefficients auxiliat- 
ves qui permettront de déterminer les échanges statiques. Pratiquement on donne 
aux c;des valeurs de nombres «pris au hasard»; on montre en effet que la prob- 
abilité d’obtenir des coefficients ne satisfaisant pas aux conditions du théoréme 7 
est trés faible; on appellera accident cette éventualité. 

Voici le détail de l’algorithme: 

I. Début d’étape: On connait une référence initiale RCE. Au début de 
l’algorithme R est arbitrairement choisie; dans les autres cas elle est fournie par 
l’étape précédente. Sans restriction de généralité, on peut écrire R= (%,,..., %,41)- 
Soient 9, ..-, M,41 les vecteurs caractéristiques correspondants; on calcule les 
coefficients e; de la relation: 





n+l 


De =0. 
1 


On peut encore supposer ¢,=1, @,=+0,..., gO, 41 =+*+l,4,=0 (R21). Les 
coefficients sont alors entiérement déterminés. On choisit «arbitrairement» 
n—k-+-4 coefficients auxiliaires non nuls c,,;, ..., C,41, Correspondant aux points 
Xpea» +++» X_44- On calcule: ’ 


k 
— DeF (Ff) 
Q=—*+——  —_ e=|9Q| est la déviation sur R. 


Del 
1 





Puis on passe a la situation IT. 


IT. On calcule 7 (P) = Q sign (e,) $= 2,...,k 
r(P) = Q sign (c,) +=k+1,...,%+1. 


On résout le systéme: (y;, «) =F(x;)+7(x;) #=2,...,m+14. 

Les composantes de« sont les coefficients d’une meilleure approximation extréme 
sur R. On calcule pour cette approximation les erreurs r(x) x€ E. Supposons 
que le point correspondant a l’erreur maximum en valeur absolue soit x, 4; 
si |7(x,42)| Se, « est une solution du probléme et l’algorithme est terminé; 
sinon, on calcule les coefficients b; de l’expression 

n+1 


Pnt2+ 2,0; 9;= 0. 


Soit: s=sign[Qr(x,+2)] 
M=min%5 j=k+14,...,.0+4) N=min §=2,...,k 


i a 


s'il n’y a pas de coefficients c,;, c’est-a-dire si R est une référence stricte, on pose 
M=0. 
Cas 1. M<0O; on passe a la situation HII (échange statique). 
Cas 2. M=0 et N<0O; on passe a la situation IV (échange non statique). 
Cas 3..M=0 et N=O; on passe 4 la situation V (échange non statique). 
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III. Sans restriction de généralité, nous pouvons supposer Pnt1S —M on 


Cn + 
échange %,49 et %,41- ars 
° Cc . c 
Soient: oj =c;— bt! s¢=hk+14,...,85  Cypg=— th, 
bn+1 bn41 


On retourne 4 la situation II avec la nouvelle référence en effectuant le change- 
ment de notations: x, 9—>%,413 Ci; —>¢; t=RH+1,..., M5 Chy2—>Cyi a; &; et Q ne 
changent pas. Si l’un (ou plusieurs) des nouveaux coefficients c;=0, nous avons 
un «accident» et nous le remplagons par un nombre «pris au hasard». 


IV. Sans restriction de généralité, nous pouvons sup- y 


poser = AS, On échange x, et x,4, et l’on retourne a a A 
2 


la situation I avec la référence R= (4%, %,49, %3) +++» X%_44)- 

V. On échange x,,, et x, et l’on passe 4a la situation I 
avec la référence R=(%9,..., X42): 4 
Exemple. Pour illustrer l’algorithme généralisé, appliquons- 

le a l’exemple 2. 

1. Référence initiale R,=(A, RB, B,, FB); 1a référence est 
stricte. Meilleure approximation sur R,:7+14%+10y.@=7; 2 | b, 
r(R,)=—27. On peut échanger B soit avec P, soit avec B Fig. 5 
(échange non statique); choisissons FR. 

2.R,=(f, A,B, BR). R, n'est pas stricte; gy, — 0,5 y,—0,5 y3=0 choissons 
C,=+1. Meilleure approximation sur R,: 12+ 24%; 9p=12; r(R)=18. Echange 
statique de P, et FB. 

3. Rz=(R, B, B, BR). Meilleure approximation extréme sur R;,: f,(x, y)= 

12+18x; r(R,)=—6. 
f(x, y) est aussi meilleure approximation extréme sur l’ensemble entier; ‘on 
vérifie aisément qu’il n’y a qu’un cadre maximal; les coefficients des meilleures 
approximations sont situés sur un segment de droite de l’espace a, a,, a, dont 
les extrémités sont deux meilleures approximations extrémes. En posant c,=— 1, 
on aurait obtenu l’autre meilleure approximation extréme /,(x, y)=12. 





at 
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Fehlerabschatzungen bei Relaxationsverfahren zur 
numerischen Auflésung linearer Gleichungssysteme 


Von 


J. ALBRECHT 


Seit die Méglichkeit besteht, mit Hilfe elektronischer Rechenanlagen auch 
umfangreichere Systeme linearer Gleichungen (mit Hunderten und sogar Tau- 
senden von Unbekannten) numerisch zu bearbeiten, sind mit verstarktem Inter- 
esse Untersuchungen iiber die Beschleunigung der Konvergenz iterativer Lésungs- 
verfahren durchgefiihrt worden. Fiir Systeme mit hermiteschen, positiv definiten 
Koeffizientenmatrizen gehéren dazu vor allem die systematischen ,,Relaxations- 
methoden“, bei denen die an den Naherungswerten anzubringenden Verbesse- 
rungen proportional zu den Defekten (Residuen) der Gleichungen sind. Giinstigste 
Werte fiir den ,,Relaxationsfaktor’ lassen sich nach den Theorien von YOUNG 
und ARMS-GATES-ZONDEK (,,Successive Overrelaxation“‘) und von GOLUB-VARGA 
(,,Chebyshev Semi-Iterative Method‘) bestimmen. 

Offen scheint bisher noch das Problem einer Fehlerabschatzung zu diesen 
Verfahren zu sein’, z.B. die Frage, wie man von der (geeignet gemessenen) GréBe 
der Defekte auf die GréBe der Fehler schlieBen kann. Um sie beantworten zu 
kénnen, werden einfache funktionalanalytische Hilfsmittel herangezogen, namlich 
die Axiome [7] fiir die Normen |v], |w|,... von Vektoren v,w,... und die 
Normen |M|, ||N|, ... von Matrizen M, N, ...: 











1. |v >o fir v =0 1. |M||>0 fir M #0 
|v] =o far v=0 |M| =o far M =o 
2. |ev|=|c| lv] (¢ komplex) | 2. jc Ml|=|c| - ||| (c komplex) 0.1) 
3. lv + w] S fo] + fol 3. [M+ NI S|M| + [I 
; [MNS |M]- I] 
4. [Mv] = |MI- >| 











Eine Matrixnorm |M|| (Axiome 1, 2,3) heiBt zu einer gegebenen Vektor- 
norm |jv|| (Axiome 1, 2, 3) ,,passend‘‘, wenn Axiom 4 erfiillt ist; sie hei®t ihr 
,,zugeordnet“’ (und ist dann passend), wenn |M |= Max |M v|| ist. 

jvll= 


Im folgenden soll grundsdtzlich unter der Vektornorm die 
Euklidische Norm ||v|= )/0’-v (0.2) 


a Eine Ausnahme bilden die beiden klassischen Methoden: das Gesamtschritt- 
verfahren (Jacobi) und das Einzelschrittverfahren (GAUss-SEIDEL). 





52. 
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und unter der Matrixnorm die ihr zugeordnete 
Spektrainorm |M|= Max |/v;(M’ M) (0.3) 
1 


verstanden werden, obwohl ein Teil der Aussagen auch fiir andere Normen 
giiltig ist. Eine wichtige Rolle spielt auch der 


Spektralradius 7(N) = Max |»;(N)|. (0.4) 
7 


(Mit »;(N) (j=4, 2,..:,) werden die charakteristischen Zahlen einer n-reihigen 
quadratischen Matrix N bezeichnet.) 

Einleitend wird ein kurzer Konvergenzbeweis zur Relaxation in Einzelschritten 
mit konstantem Relaxationsfaktor bei hermiteschen, positiv definiten Koeffizien- 
tenmatrizen gegeben. Eine allgemeine Fehlerabschatzung dazu wird fiir die 
spezielle, von YOUNG u.a. untersuchte Klasse solcher Matrizen bis zur praktischen 
Anwendbarkeit entwickelt. AnschlieBend werden weitere, den besonderen Eigen- 
schaften dieser Matrizen angepaBte Fehlerschranken hergeleitet. Der nachste 
Abschnitt behandelt — in der Darstellung von GoLuB-VARGA — Methoden, 
bei denen sich der Relaxationsfaktor von Schritt zu Schritt andert, und bringt 
Fehlerabschatzungen dazu. AbschlieBend folgen numerische Beispiele. — Run- 
dungsfehler werden nicht beriicksichtigt. 


I. Konvergenz der Relaxation in Einzelschritten 
bei positiv definiter Koeffizientenmatrix 


Bekanntlich [2] konvergiert ein Iterationsverfahren 
Skt214+ C4 =aq (k=0,1,2,...) (1.1) 
zur Auflésung eines linearen Gleichungssystems 
Ar=a : (1.2) 


(mit A= B+C; det AX=+-0, det B +0; r° beliebig) genau dann, wenn der Spektral- 
radius der ,, Iterationsmatrix’‘ = — $8" € kleiner als 1 ist, d.h. wenn alle Wurzeln 
* von ; 
det (x B + €) =0 (1.3) 
Betrage kleiner als 1 haben. Daraus 1a4Bt sich folgern: 
Satz. Ist die Koeffizientenmatrix eines linearen Gleichungssystems 
Ax=a (1.4) 

positiv definit, gilt also 

Axa; HA) ) ie "99 (1.5) 

=0 fir v=0, 


und teilt man A, x und a in Teilmatrizen bzw. Teilvektoren auf: 


Ay, —Ajs —Ajs ee — A, x’ xy ‘ay 
—Ag, . Ags ~Ags... —Agy Xe as 

A = — As, — Age Ag; eee bis Asn ’ x= X3 ’ a= ay ’ (1.6) 
— Ay, — Aye — Ans --- Ayn xn an 
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wobei die Matrizen A;; (i=1,2,...,N) in der Diagonalen quadratisch (und 
ebenfalls positiv definit) sind, so ist die Relaxation in Einzelschritten 





A, x" = Ai; apt + Dd Aij xf + a; 


j<t 1>t 
hth — ach 4 oy (ZEt1 — ah) } (1.7) 
(i =1,2,...,N; k=0,1,2,...) 











fir 0<w<2 konvergent; w ist der Relaxationsfaktor. Mit 


0 us 0 ow ee ey 
fete et x 0 “a a oe 
ee Ae es ae a as re nt! ) 
Saree -_ o | 0 0 Ay_1N 
Ay, Aye «++ Ay w-1 9 0 0 (1.8) 
or Cee 0 
0 Ay 0... 0 
0 + eyes 
0 tn _ * 


lautet die Iterationsvorschrift (1.7) kiirzer: 





(D—w S,) +? = ((1—w)D+a@S,)x*+wa (k=0,1,2,...). | (1.9) 











Beweis*. Zu jeder der fraglichen Wurzeln x gibt es einen Vektor z +0 mit 


x(D —w S,))z=((1-—@) D+ S,) z. (1.10) 
Wegen 
z'{(2—w) D—wA+o(S,— S,)}2z 
= 2’2{(t—w)D+aS,}z 
=x2'2{D —wS,}z 
=x 2z'{(2-—w)D+wA+o(S,— S,)}z 


und mit den Abkiirzungen 

Z#Az=a, #Dz=6, F(S,—S)z=i0; e=>2—-1 (1.11) 
hat x die Gestalt 

on £2—et'e 
~ @d+at+ia’ (1.42) 
wobei 0<a< oo, 0<d< co, —oo<a<-+oo ist.: Derartige Zahlen x liegen aber 
unter der Voraussetzung 
0<p<o, dh. 2>w>0 








2 Verallgemeinerung einer Idee von L. Cottatz [2] fiir das Einzelschrittverfahren. 
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- fiir dog feste Wertepaar a, 6 auf einem Kreis vom Radius a 5 um den Punkt 
rar der komplexen x-Ebene, also stets (d.h. fiir 0<a< 00, 0< 6< 00) innerhalb 


& Einheitskreises; x=1 ist wegen — co<a<-+ oo ausgeschlossen. 





II. Fehlerabschatzung zur Relaxation in Einzelschritten 
Einfache Umrechnungen der Relaxationsvorschrift 


(D —@ S,) #+*?=((1—@)D+@S,)x*+ma (k=0,1,2,...) | (2.4) 


- fiihren (mit der Abkiirzung y= 1— =) nacheinander auf 


w A x*+ = ((1—w) D+ S,) (x*— x*+1) +a, (2.2.1) 
w A(x*t? — x) = ((1 —w) D+a S,) (x* — x*+}), (2.2.2) 
xht+l_ x = Aly D — S,) (x*+! — x). (2.2.3) 


Daraus folgt die Fehlerabschatzung 





|x*+? — x] <]A4(yD—S,)h|xe*— A] (&=0,1,2,...). 1 (23) 











Sie ist numerisch allerdings nur dann brauchbar, wenn es gelingt, ||A— (yD — S)| 
ohne besonderen Arbeitsaufwand zu berechnen. 

Da zu der positiv definiten Matrix D die (ebenfalls positiv definite) Quadrat- 
wurzel D+ und deren Inverse D~-+ existieren, kann das urspriingliche System 


(S=S,+ S3) 


Ax=a oder Dx=Sx+a (2.4) 
mit 
D-+AD-+= B, D-!SD-+=T, D-§S,D-!=T,, D-'S,D-+=T, ve 
Dix=y, D-4a=b 
in 
By=b oder y=Ty+b (2.6) 
iiberfiihrt werden. B ist wieder positiv definit, T hermitesch, 
T =T’ (2.7) 
und zu 


(E—wT,) y***=(1-—ow)E+oT,)y¥+mb (k=0,41,2,...) (2.8) 


lautet die Fehlerabschatzung * 








4-9 SKE—7)7GE-Db*"- A] &=0,1,2....). | 29) 








3 Wegen %’Dx=y’y gilt bie 





y Wo aus Fehlerschranken fiir ||y*+1—y]| 





2 


werden daher durch Multiplikation mit ] !__ Schranken fiir jak +2— x]. 
/v(D) 


min 





14* 
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Fiir alle weiteren Untersuchungen werden nun zusdtzlich die folgenden (ein- 
schrankenden) Voraussetzungen getroffen: 





|T| <4 (2.10) 
und 
0 | T, } m, Zeilen 
T = (nm, + ",=n). (2.11) 
T, | 0 } nz, Zeilen 





n, Spalten n, Spalten 


Nach Youn [16] besitzt eine Matrix, die sich durch identische Permutationen 
von Zeilen und Spalten auf die Form (2.11) bringen laBt, ,,Property (A)‘‘; VARGA 
[15] bezeichnet Matrizen der Gestalt (2.11) als ,,zyklisch vom Index 2“ und 
dehnt die Theorie auf ,,p-fach zyklische“‘ Matrizen aus. 

Der Aufteilung der Matrix. 7 entsprechend werden auch die Vektoren zerlegt, 
z.B. 


n, Komponenten 
y= (21), d= (2) ornament ma). (243 
Va b./} n, Komponenten 
Als hinreichend dafiir, daB ||7||<1 ausfallt, erweist sich die Bedingung 


T 20. 
Nach Satzen von FroBENIus [10] besitzt namlich eine nichtnegative Matrix T >0 
eine dem Spektralradius r(7) gleiche charakteristische Zahl, die sog. Maximalwurzel; 
wegen T=T" ist x(T) =||T|| und wegen B=E— T besteht zwischen den char. Zahlen B; 
von B und t; von T (nach geeigneter Indizierung) die Beziehung 0<£;=1—r1;, 
also gilt auch 0<1—||7]|, d.h. ||T||<1. 

Nach der Definition von L. CoLiatz [3] heiBt, eine Matrix M ,,von monotoner 
Art, wenn aus MvsSMw folgt vSw; M ist dann nichtsingular, und M-!=0 ist 
notwendig und hinreichend dafiir, daB M von monotoner Art ist. — Symmetrische, 
positiv definite Matrizen B=E—T mit T 20 besitzen diese Eigenschaft, denn B-! 


existiert und kann wegen ||7||<1 durch die konvergente Reihe B-!1=(E—T)?= y Tt 
dargestellt werden; da aus T 20 auch T*20, T*20, ... folgt, ist B-1So. *=0 

YounG [16] und FRANKEL, spater verallgemeinernd ARMS-GATES-ZONDEK [/], 
haben gezeigt, daB unter diesen Voraussetzungen der ,,beste‘‘ Relaxationsfaktor 
w=w,, der durch die Forderung 


r(K(w,)) = Min (K(o)) 23) 


definiert wird (K(w) =(E—@T,)1((1—w)E+@T,) ist wieder die Iterations- 
matrix), aus ||7|| errechnet werden kann, es gilt namlich: 


Satz‘. Ist {| charakteristische Zahl von 3 


x @ 


; und besteht die Beziehung 
(x + — 1)? =xw?7?, (2.14) 
so ist ‘| charakteristische Zahl von Prt Daraus folgt: 
Tt 


aes. . Leeee , wee i 
eae yaniv und 7(K(@,)) =a, —1 YT (2.15) 








* In den geschweiften Klammern ist entweder stets die obere oder stets die untere 
Zeile zu lesen. 
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Entsprechend 14Bt sich dann fiir {(E — 7) (yE —T,)}’ {(E — T)> (yE —T,)}= 
L(w) zeigen: 


Satz. Ist ( charakteristische Zahl von fepal und besteht die Beziehung 
w 
=4 a A+ ary on Ht fa al (2.16) 
Y tai 2 
(mit y=1-—- ' und o= 2 —1), so ist (| charakteristische Zahl von rt 
¥ w 7 a Tt T 


Daraus folgt: 
(E — T)>~E-7,)|=4 Vl 











TI? (Q? +171) +47? (4-712) + VTP (0? +1171) . (2.47) 
1—||7)? 


Beweis®. 1. Fir w +1 ist jede charakteristische Zahl A von L(w) auch cha- 
rakteristische Zahl der ,,allgemeinen‘‘ Eigenwertaufgabe 


(y E —T,) (yE —T,) w=A(E — T)*w (2.18.1) 
und umgekehrt ; es bestehen also (bei Zerlegung des zu A gehérigen Eigenvektors w 
nach (2.12)) die Beziehungen 
{(y?E, + T, Ti) — 4(E, + T, T,)} wm = (y — 24) T, wy 
(y — 24) Tm = (YE, — A(E, + 7, T,)} wy. 


2. Fiir jede charakteristische Zahl tr von T gilt (ebenfalls bei Zerlegung des 
zugehérigen Eigenvektors nach (2.12)) 


T, 2 = T 2g, To % = F %. (2.19) 


(2.18.2) 


Mit t= 0 ist auch — t+ 0 charakteristische Zahl von T. 
3. Jedem (nur bis auf einen konstanten Faktor bestimmten) Eigenvektor {3} 
w 


wird gemaB 


ein Eigenvektor {? zugeordnet, wenn (vgl. (2.18), (2.19)) die Proportionalitats- 
z 
faktoren ¢, und ¢, nichttriviale Lésungen des homogenen Gleichungssystems 


(y+ tt A(t+ w)} = (y — 20) woe — 
(y — 2d) 1, = {y? — A(1+ t*)}Ce 

. sind, wenn also die Beziehung 

o ae dnodd )=0 (2.22.1) 

(y—2a)t y—A(tt+r) - 
d.h. 
{(4 — t?) A — y?}# = (0? 27+ rh A (2.22.2) 

besteht. 


5 Nach einer von SHELDON [13] zum Beweis des vorigen Satzes verwendeten 
Methode. 
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4. Jedem Paar nichtverschwindender charakteristischer Zahlen +t von T 
entsprechen so zwei charakteristische Zahlen A~, A* von L(w) mit 0< A~(t?) <A*(r?). 
Aus t}< 7? folgt nach (2.16) A*(t?)<A*(z}), also gilt 


\Z — T)*@E- T=)" (TP) 
= 1 VeNTPFIT CATE + VOTE (2.23) 
1—||71P 
Damit ist bei 2fach zyklischen Matrizen T die in (2.9) angegebene Schranke in 
einfacher Weise aus w und |7|| berechenbar. 


5. Fiir w=1 entartet, wie der Vergleich von T und L(w) auch unmittelbar 
bestatigt, die Beziehung (2.22) zu 


(4 — 1)? A? = (rt? + r4) A. (2.24) 








Zum Einzelschrittverfahren gilt also bei 2fach zyklischen Matrizen T die Fehler- 
abschatzung 


k+l _ 


byt — yx PHF pass — yap, 25) 
III. Fehlerabschatzung zur Relaxation in Einzelschritten 
bei 2fach zyklischen Matrizen 
Die spezielle Gestalt einer 2fach zyklischen Matrix T und die ihr angepaBte 
Zerlegung der Vektoren legen es nahe, fiir beide Teile des Lésungsvektors, y, 
und y,, getrennte Fehlerabschatzungen herzuleiten. Es ist zweckmaBig, dazu auch 
mit getrennten Iterationsfolgen y?**+ und y3*+* zu arbeiten: 





yah+t o- yen < hee: . T, yer + b, — “°*) 


} hk = 0, 1,2, ...); | 
yg't?= ys* +o(T yt +b,—y5" ) ' ys | ON 











y} und (fiir w +1) y;' sind (frei wahlbar) vorzugeben. 


Einfache Umformungen dieser Iterationsvorschriften fiihren mit den Ab- 
kiirzungen 


yA a Aig tang A tie-in laine oe 
tite gy Bt gee Pe 
zu 
ethtl _ 7, eth = y &*+1 _ 7, g2ht2 
— T, e+? +. eh +2 y dakt? (3.3) 
und weiter zu 
(E, — T, T,) e3**?  (y E, — T,T,) 65**? + y T, of**". (3.4.1) 


Ganz entsprechend ergibt sich 
(E, — T, T,) e+" = (y E, — T, T,) &t*** + y T, 6". (3.4.2) 
Bei der Abschitzung ist 
INP=I2Gl=|77]=|7P und [P= %)=|1=|7P — (3.5) 
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zu beachten; man erhalt fiir 1<wm< sor (dieses Intervall*) enthalt auch 

















+e! ; 
er" )or**| |63" 
1—|7)? Ss (IT? — rin: 6 
(1 17P) Peasat SCP) Val t7ITH el 6.9 
und darf wegen |7||<1 dividieren: 
ae [ary ra 
< T|? — T|}, 2 
ie one 1—||7]|? (| | y) }o2*+>| +y| | | o24+3) (3 7) 
Diese Schranken hangen wegen 
lar =olTev*+a—yi* tL,  1e**]=olT vi"? +o,.—ya"] (3-8) 


unmittelbar mit den Normen der Defekte-zusammen. 
Beim Einzelschrittverfahren gilt speziell 








2k+1 <. ATP 2k+1_ ,,2k-1 2h+2 <_ |r 2k+2_ , 2k 
ly; ni) 1—||7]/? ly V1 |, lve ¥e||S 1—||7) |? lve Ve |. 


IV. Diskussion der Fehlerabschatzungen 


1. ||7|| ist meistens nicht genau bekannt; die Abschatzungen (2.9) [mit (2.23)] 
und (3.7) [Spezialfalle (2.25) und (3.9)] bleiben aber richtig, wenn |7|| durch 
eine (natiirlich méglichst gute) obere Schranke, die ebenfalls kleiner als 1 ist, 
ersetzt wird. AuBerdem ist bekanntlich ein Relaxationsfaktor w>w,, wie er 
sich aus (2.15) bei Ersetzung von ||7|? durch eine obere Schranke ergibt, giinstiger 
als ein (entsprechend) kleinerer Wert, da die Konvergenzgeschwindigkeit fiir 
w>wq, langsamer fallt als fiir @#<m,. In die Fehlerschranken geht der bei der 
Rechnung benutzte Relaxationsfaktor w ein. 

2. Die Schranken fiir die Normen der Fehler und, wie numerische Rechnungen 


zeigen, auch die Normen der Fehler selbst. k6nnen wegen des Faktors - aa 


die Normen der Anderungen bzw. der Defekte betrdchtlich iibertreffen: Bei:dem 
Beispiel in Nr. VI liegen Gleichungssysteme fiir (2m — 1)? Unbekannte vor (von 
denen 4m(m+1) Unbekannte durch Rechnung, die iibrigen durch Ausnutzung 


der Symmetrien ermittelt werden kénnen); hier ist |7||=cos = und bei fort- 











gesetzter Verdoppelung von m (Halbierung der Maschenweite) ergibt sich: 























Tabelle 1 
. m(m+1) P 1 
m (2m—1) ——_—e TI at Wp | Psi al 
2 9 3 0,707 106... +E, 078 «5 | 2 
4 49 10 0,923 879... 1,446... | ~~ 7 
8 225 36 0,980 785... 1,673... ~~ 26 
16 961 136 0,995 184..., 4320... | = 104 
64 | 16129 2080 0,999698 ... 1,952... | 1660 
6 Falls >a <w <2 sein sollte, ist in (3.6) und (3.7) der Faktor ||7||*?—y durch 


y zu ersetzen..: 


(3-9) 
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3. Beim Einzelschrittverfahren ist die Fehlerabschatzung nach (2.25) stets 
schlechter als die Abschatzung nach (3.9). Wiirde man namlich die Vektoren y, 
und y, wieder zusammenfassen 








2h+1 
ro [} = Ge) ws 
so besagt (3.9), daB dafiir 
2 
bt? — ys EE pt — (4.2 
gilt; diese Fehlerschranke ist um den Faktor ————— 7 - kleiner als die Schranke 
in (2.25). V+ 
4. Unter der Voraussetzung ||7|<1 erhalt man aus (2.9) wegen 
E-T, 
lF-7GE-TWISlE- 7M IbE-TIs 2443) 
die grébere Fehlerabschatzung’? 
y E-T, 
pitt — 9] Ee yt A. (4.4) 
Bei 2fach zyklischen Matrizen T gilt fiir (yE — ae 2 (yE —T,)= M(w): 
Satz®. Ist , charakteristische Zahl von M( ‘at und besteht die Beziehung 
lu @ 


(u —y?)?=yp Tt, so ist | charakteristische Zahl von rt Daraus folgt: 
Tt 


ly Z —T,] = 4{I71+ VITP + 474}. 
5. Es liegt nahe, mit Hilfe des Fixpunktsatzes fiir kontrahierende Abbildungen 
[4] ebenfalls eine Abschatzung des Fehlers zu versuchen: Unter der Voraus- 
setzung |K(w)|<1 gilt 
‘ k+l __ |< | ()}] ly k+l __ y*||. (4.5) 


Y 1K (ol ” 
Ist 7 2fach zyklisch, so laBt sich zeigen: 


Satz®. Ist (| charakteristische Zahl von und besteht die 
, 


K(w)’ K(@) 
Beziehung (2 ; — yp) =vr8(ot+ t?), so ist | charakteristische Zahl von 


aon Tt 
— K(w) , Daraus folgt 


zs ' 
IK@)| = 3 {(forl7P@+I7P—) + 44+ Yol7TPe+i7P)}, 4.6) 


7 Fiir das Einzelschrittverfahren (w=1; y=0) wurde sie, unter Beschrankung 





auf 
Holl = Max|v;| und IMU] = Max Z|mjq|, 


bereits» von W. Dick [5] bewiesen. — Bei vielen Anwendungen der Relaxation, 
namlich der Auflésung der finiten Gleichungen des Differenzenverfahrens fiir gew6hn- 
liche und partielle Differentialgleichungen, sind diese Normen aber, ebenso wie 


Hell = Zo] und [Mi] = Max Z| mj,|, 
1 1 


nicht geeignet, da [JT |] =1 ausfallt. 
§ Der Beweis wird der Kiirze halber fortgelassen. 





Le 2 











i ef JSUT 
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speziell also |K(1)| = |7| /1+|7/?, und weiter: 


|K(w)|<1 nur fiir ae < (=. — 1)'= 0, (4.7) 
speziell also 
IK(4)| a {2(V/5 —1) 
ie <1 nurfir |7P< ( y } (4.8) 


Diese auBerordentlich einschrankenden Voraussetzungen tiber ||7|| zeigen deut- 
lich die Uberlegenheit der in Nr. II und III hergeleiteten Abschatzungen, die nur 
7 |<1 erfordern. Gerade bei den Gleichungssystemen des Differenzenverfahrens 
liegt ||7|| sehr nahe bei 1, hier versagt also der Fixpunktsatz. 


V. Fehlerabschatzung zur Relaxation nach Golub-Varga 
Die Konvergenz des Gesamtschrittverfahrens 


yo—Ty*+b (9 beliebig) (& = 0, 4, 2, ...) (5.4) 


zur Auflésung eines Gleichungssystems 
y=Ty+b mit. T=T’, |T|<1 (5.2) 


laBt sich beschleunigen, wenn aus den Elementen der Folge {j*} gewisse Linear- 
kombinationen y* gemaB 


k k 
y= Leni mit Zou= 1 (& = 0, 4, 2, ...) (5.3) 


gebildet werden. Fiir die Fehler 


e=y'—y und e'=y'—y (k=0,1,2,...) (5.4) 
gilt 
= T g*-1 =... = T*@, (5.5) 
k k h 
eh = Dey, 8 = Dy, T' 8 = Dy, T' &° = —, (T) &°. (5.6) 
i=o i=0 i=0 


Dabei sind g,(t) (k=0,1,2,...) durch y,(1)=1 normierte Polynome &-ten 
Grades in t; die Mengen dieser Polynome seien mit P, (k=0, 1, 2, ...) bezeichnet. 
Aus den Fourier-Entwicklungen der Fehler nach dem Orthonormalsystem {z;} 
der Eigenvekioren von T (Spektrum 1,) 


a9 = Di 6; %;; e* = Dc; Me (Ti) % (5.7) 
i=1 i=1 
folgt 
eer ns 
je*| = Let Pi (t;) S Max | 9 (7,)| ze = Max|gx(z)|-le*l- (5-8) 
Es ist also sinnvoll, die Forderung . 


Mi M . = M k = 0, 1, 2,... 5.9 
on (te Pe J dex. Ph (7)1) *|tl < ITI Ive (7)| ( ) (5.9) 
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zu stellen (,,Relaxationsmethode bester Strategie‘‘ [14]); sie wird eindeutig be- 
friedigt durch 


nia = SE ( =0,1,2,...), (5.10) 


C SS ae 
wobei *"\I7I 


Col=1, GM=t, CeunQ=2tC,)-—CiiQ (k=1,2,3,...) (5-44) 
die Tschebyscheffschen Polynome sind. Ihrer rekursiven Definition analog be- 
steht, wie man nach kurzer Rechnung bestiatigt, fiir die Vektoren y* die Itera- 
tionsvorschrift von GoLUB-VARGA [11] (y° beliebig): 














yhtt — yt wm, {Ty +b — yr} (k=0,1,2,...) | (5.12) 
mit 
wo,=1, @,=——__; Wr +1 oe (k= 2,3,4,...). | (5.13) 
2—(|71| + ITE 

Die Folge der Relaxationsfaktoren w, ist, von w,=1 cant monoton fallend 

[11]: : ae 
2> 5-17 >w,>--- = lim w, =o, = —— ->1. 14 
[ee a + Te ee 


Zur Fehlerabschatzung: Aus (5.12) folgt mit y, = 1— oa 
ke 


(E — T*) (y*** — y) = (Yer2 E — T?) (y**?— y") + na T(t? — yy) (5.15) 
und 





+3__ —_— 5 2 k+2_ ak h+1_ ah-1 
[**? — yh S <page {UIT — yess) bt? tree ITA — 9B 6 46) 
(k = 0, 1,2, ...). 











Ist T 2fach zyklisch, so sind [11] die Folgen {y{*} und {ya} von den Folgen 
{y3*} und {y{**?} véllig unabhangig; es geniigt also, von y} ausgehend, mit (5.13) 


yt? = yt? + mensa{ Thy: *+,—y¥°-5 

yet y+ wens {hi ni** + bz — y3"} 
zu’ berechnen. Fiir diese Relaxation in Einzelschritten gilt dann die Fehler- 
abschatzung 


ning r 
bi? — yal S apap {ITP — vanes) D2? — 92+ yen TMi — 9B 
(k =0,1,2,...), 


bit — sis apap {ITP — ren) bt — 91+ real TY — 98 
(k = 1,2, 3,...). 


Bei ,,hypergeometrischer .Relaxation’’ [74] mit ultraspharischen Jakobischen 
Polynomen #%(t) (mit «=— 4), die durch 


(k= 0,1,2,...) (5.47) 


as eile a Tae Mert k(k+2a) 
p(t) =1, pr() =#, Phir (t) = 2005) — Get Pi (0 (5.19) 


(k = 4, 2, 3,...) 


(5.18.1) 


(5.18.2) 

















9184 —3# 


vi 





$184 —3# 


vi 
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definiert sind (p,!(¢)=C,(é)), werden statt (5.13) andere Relaxationsfaktoren 





O=1; Oa = ‘tac (k=1,2,3,...); lim a =a, (5.20) 
Pa a AE Sens 2 
4(k+a)*—1 7) Dp 


verwendet; die Iterationsvorschriften (5.12) und (5.17) bleiben aber, ebenso wie 
die zugehérigen Fehlerabschatzungen, unverandert giiltig. 


VI. Numerisches Beispiel 
Bei der Randwertaufgabe 
—Au=1 in@Q: |&|<1, |n|<1 
=1, S1 6.1 
u=0 auf I: Ié| In| ati 
[é] 1, |n| =1 


fiir u(&,7) fihrt das gewodhnliche 
Differenzenverfahren auf finite 


Gleichungen 
1 . 
Ue — E4M saat Yep t (*) 


i] 


+ Up p+ Uj, ap=ph (6.2) 






























































(j,k =0, + 1, + 2, eee 
+(n — 1)) , 3 
fiir Naherungswerte 
‘Uj, ~u(jh, kh) ga 10 
(,4=0, 4,42... (6.3) 2 ye 
PR ea 
+ (m — 1); h=-). P : , , i 
Werden diese Gleichungen zuniachst i 
fiir alle Unbekannten u;, mit un- re 


gerader Indexsumme 7+ (Zusam- 

menfassung zu einem Vektor y,; Abb.1: [)) und anschlieBend fiir alle Unbe- 
kannten mit gerader Indexsumme-j+ k (Zusammenfassung zu einem Vektor y,; 
Abb. 1: O) aufgeschrieben, so entsteht eine ,,2fach zyklische‘‘ Koeffizienten- 


matrix. Die Lésung des Gleichungssystems lautet fiir »=4 (71 =4 2+ \ 2): 








uUu == 1267 

°” 48 

= 1199 ue — 2271 

a 4352 ° 8704 

oa. ; we 1999 

5, — 7 ae Oe 9° a “1 8704 
: — os : a 619 
3” 4352 ’ 8704 

_ 601 es 3 

4°” 4352 “9 128 
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Der Kiirze halber werden gemaB Abb. 1 einfachere Indizes verwendet als in 
(6.3) und Komponenten, die auf Grund der Symmetrien mehrfach vorkommen, 
nur einmal aufgefiihrt (Reduktion von y, und y, auf ¥, und 7,). 

Beim Einzelschrittverfahren (w=1) erhalt man nach (3.1), (3.9) z.B. (mit 
Rundung auf 10 Stellen fiir k= 2): 





























Tabelle 2 
3 2 3 
0,290 | 0,274625 0,29025000 | 0,2747187500 
0,260 | 0,214375 0,26012500 | 0,2144765625 
0,178 | 0,110625 0,17812500 | 0,1107109375 
0,071 0,137625 0,070 937 50 0,137 7343750 
0,226 0,225 87500 
0,131 0,131 28125 
Tabelle 3 
eZ***)| eZ **2}| 
k leg**4|] = NII ggeea Nege*ll= hile 
S$ j— ire = = 4-71" 
O 1073+ 2,752... 1073+ 5,524... 
4 | 1073- 2,539... 107° - 2,762... 10-3 - 2,344... 10-3 - 2,436... 
2 | 10-3 + 2,165... 10-8 - 2,207... 10-* - 2,000... aor meee... 
3 1073 - 1,847... 10-3 - 1,856... 1073+ 1,707... 10-*+ 1,711 oa; 
7 | 10-*- 9,80720... 10-*- 9,80738... | 10-*- 9,06067... | 10-* + 9,06075... 











Der Vergleich der Fehlerschranken mit den Fehlern selbst zeigt (auch bei 
anderen Beispielen), daB die Schranken die wahre GréBe der Fehler um so 
genauer wiedergeben, je mehr Iterationen bereits durchgefiihrt worden sind; auf 
den Einflu8 der Rundungsfehler ist dann u.U. besonders zu achten. 

Fiir w>1 fallt die Fehlerabschatzung zur Relaxation in Einzelschritten nicht 
so giinstig aus wie fir w=1. Die Rechnung mit w=, nach (3.1) liefert bei 


Rundung auf 10 Stellen 


























Tabelle 4 
yy) 74 2 AH 7 
0,274 0,290 0,2749040392 | 0,290765 2354 0,275 1928161 
0,214 0,260 | 0,2145424235 | 0,2605037037 | 0,2149579097 
0,110 0,178 | 0,1109040392 | 0,1785037037 | 0,1109648352 
0,137. | 0,071 0,1379040392 | 0,0711114060 | 0,1380357657 
| 0,226 0,226 1420880 
| 0,134 0,1316691705 
Tabelle 5 
k Nef**2 |= Nef tls = leg**?|1= les**F1s-— 
1 | 10-*- 7,183... | 107-%-9,909... | 1074- 4,456... | 107%- 6,420... 
2] 10-*- 2,172... | 107% 3,980... | 107*- 1,550... | 107%- 2,630... 
3 | 107-8424... | 10-%- 1,478... | 10°5- 4,344... | 1074- 8,964... 
7'| 10+ 4,418... | 10-5- 3,457... | 10-*- 3,523... | 10-5- 2,605... 
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A stagewise parameter estimation procedure 
for correlated data 


By 
MARVIN BLUM 


Introduction 
Given a set of N observations consisting of a deterministic function or mean 
value function, 


k 
f(t) = 24,4, 
e . j=® 4 
plus a random stationary error ¢(¢) where the functions h,(t) are known a priori 
but the parameter vector A =(A,A,,..., A,) is unknown, the central problem 
is to obtain an optimum éstimate of A. 

Two optimum estimators of A, the least squares and the minimum variance 
or Markoff estimators, are of considerable theoretical and practical interest. 
These estimators have been treated in detail by GRENANDER and ROSENBLATT}. 

Recently a stagewise estimation procedure was developed by SWERLING?. 
In this process one considers the observations in non-overlapping groups of 
k(1}, k(2), ..., R(s) data points. At the 7" stage k(j) observations are made for 
a total of 7; observations. At the 7" stage an optimum estimate A, of A is 
obtained using only linear transformations on the observation vector of the 7 
stage (F) and A;_,. The estimator for the first stage is obtained using the 
standard method where k(1)=+1. SwWERLING’s stagewise method is applicable 
for correlated data, provided the correlation between errors in different stages 
is zero. This model is reasonable, for example, if the measurements were scalar 
quantities and measurements within a stage were closely spaced in time relative 
to the time interval between the beginning and ending of successive stages. 
However, for equally spaced data (or nearly equally spaced data) this restriction 
on the correlation between elements in different stages is not reasonable. 

In this paper the stagewise estimation procedure is extended to a more 
general class of correlated data. It is assumed that the data is equally spaced 
in time and that the random error «(¢) satisfies a linear difference equation 
with constant coefficients of the form, 


n (?) = 20 e(t—)). 





1 GRENANDER, U., and M. RosEnBiatrt: Statistical Analysis of Stationary Time 
Series. John Wiley and Sons, Inc., New. York 1957. 

2 SWERLING, PETER: First Order Propagation in a Stagewise Smoothing Procedure 
for Satellite Observations, P-1674. The RAND Corporation, Santa Monica, California, 
lebruary 18, 1959. 
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The stagewise solution is modified such that at the 7“ stage one obtains an 
optimum estimate A; of A by a linear transformation on the previous estimate 
A,;_,, the last 4 observations, and the present observation vector F.. 

The advantages of the stagewise procedure are as follows: 

a) An optimum parameter estimate is available at the end of each stage, 
thus reducing the time lag required for making a decision. 

b) The storage requirements and computer load are fixed regardless of the 
number of data points (assuming the stages to be about equal in size).. In the 
non-stagewise solution the cumulative observational vector of dimension 7; as 
well as the elements of certain (r;xk+ 41) and (7; xz,;) matrices must be stored. 
These dimensions increase as additional data is available. 

c) The advantages of a) and b) are obtained with no Joss of statistical accuracy 
since the covariance matrix of the parameter error is identical in the stagewise 
and non-stagewise case for the same total number of observations (r,;). The 
disadvantages of the stagewise procedure are as follows: 

4. Since the solution is recursive in nature, the buildup of roundoff error 
over a large number of stages may be serious. 

2. At each stage the amount of computations needed is almost as much as 
that reyuired for the non-stagewise solution over all N observations. Therefore, . 
one is expending computing effort to reduce decision time lag?. . 


Optimum Non-Stagewise Solution 
The classical minimum variance estimator for A will be obtained using all 
N observations simultaneously. Let F(t) be a scalar observed at a sequence of 
times [t,,¢,,...,¢y]. The observation is the sum of two components given by 


(1) Fi) ={O +e. 

The component /(#) is a deterministic function given by 
k 
i/= 


The functions A;(¢) are known a priori but the parameter vector, 
(3) A =[A, 4... A,], 
is arbitrary. The-central problem is to find an optimum estimate of A from 
the observational vector, ' 
F = [F(1) F(2)...F(N)]. 


The component ¢ (¢) is the realization of a stationary random process such that, 


h 
(4) Bet -n=M. Hat. 


where 7(¢) is a random uncorrelated stationary process whose expected values 
are given by 
(5) E [n(t)] =0, 
E[n(t—i)nt—*)] =4., 
1 This statement holds for Swerlings model. For the correlated model a significant 


computational gain is made by avoiding the inversion of the (7; x 7;) covariance 
matrix using the recursive solution. 
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and d;, is the Kronecker delta, 
6:5 =0, 1 a k, 


6 
(6) eee OS 
Let 
(7) et{)=e(), fG=/). Fe)=F(), 
and define the normalized covariance 
(8) E [e(j) e(k)] =e [|i — AI]. 

Note that by (5) that 

E [e(j)] =0. 

Let @ be the N x N symmetric covariance matrix, 

(9) o=(0(\k—7))) &7=1,2,...,N, 


where 
e(0)=1, |e(k—7|S1. 
The inverse covariance matrix is defined by? 
(10) ;, ot=0=(G,,) k,j7 =1,2,...,N. 


The matrix ® is symmetric and positive definite. The minimum variance estimator 
of the parameter vector A is obtained by finding the vector A which minimizes 


(14) -% sew - 1) Px (F(R) — f(A). 

The matrix A which minimizes (11) is shown in? to be of the form, 

(12) A*=(D@®D}DOF, 

where D is the k+1xN matrix with elements in the «row and v"* column 
»k+1 

v= 4,2,...,N. 


Note that the solufion as given by (12) does not require that the data be 
equally spaced or that (4) be satisfied. The symmetric property of the matrix 
® implied by (8) is used. However, to obtain a stagewise solution when the 
errors satisfy (4), it is necessary to assume that the sampling times are given 
by ¢=[4, 2,..., N]. 


(13) Dy y= Ayr (t,), 


The Inverse Covariance Matrix ® 


Methods for obtaining ® have been anvestigated by WisE* and Sippigur4 
and exact formulas for the elements of @ are easily obtained for any N and h 





1 The notation ~! indicates the inverse and ~ the transpose matrix. 
* GRENANDER, U., and M. RosEnstatt: Statistical Analysis of Stationary Time 
Series. 
3 Wisk, J.: The Autocorrelation Function and the Spectral Density Function. 
Biometrica 42, 151—159 (1955). 
* Sippigul, M. M.: On the Inversion of the Sample Covariance Matrix in a Sta- 
tionary Autoregressive Process. Annals of Math. Statistics 29, No. 2, 585—588 {1958). 
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for a process ¢(#) satisfying (4). The property of ® which makes a stagewise 
solution feasible is that ® may be represented as the product of a lower diagonal 
matrix % whose elements along the j*" lower diagonal are given by «;,7=0, 1, 2, ..., 
h, and zero elsewhere, and the corresponding upper diagonal matrix «. 

Let us assume that both 7(¢) and e(¢#)=0 when ¢<0, then consider the 
relationship between «(t) and y(t), t=[1, 2,..., N]. From (4) one has, 


h 
Leaet—j=n(), t=1,2,...,N. 
j=0 


Define the auxiliary identity matrix U whose elements in the 7** row and 7" 
column are given by, 

(14) u;;=O;~51, 

i.e., a matrix with zeros everywhere except the first diagonal above the main 
diagonal containing only ones. Define the row matrices é and 4 by 


é = (e(N) e(N — 1)... e(1)), 


(15) » 
ij = ((n(N)n(N — 1)... (1)). 
Then (4) may be written as 
(16) | Da vu e=%. 
The matrix U* is the k'" power of the matrix U and has the properties: 
(a) U* =4,_,,, . (element in the 7" row and 7" column), 
(b) U8 =I, ({N x N) identity matrix) 
(c) U'=0, kR=N, [NXN zero matrix], 
(d) U*ti= (U*) (U‘) = (U*) (U*), j,k=0,4,2,.... 
From 17 (a) it is seen that the elements of U* are zero everywhere except 


for the k' diagonal above the main diagonal which contairis all ones. 


A similar set of relationships hold for U* where i and 7 are interchanged in 
17 (a) and the k diagonal below the main diagonal consists of all ones with 
zeros elsewhere. 


(17) 


Evaluation of the Inverse Covariance Matrix ® 
Define the matrix 


(18) santa.) ew. 
k=0 


Then « is a lower triangular matrix with ones along the main diagonal «, along 
the 7" lower diagonal (j=0, 1, 2,..., 4), zeros above the diagonal and zeros 


along the lower (h+7)"" diagonal, 7=1, 2,.... The covariance matrix associated 
with the vector 7 is given by 

(19) E[nn|] =aE[eéle. 

Using equations (5) and (9), (19) becomes 

(20) I=apa. 

Solving for ® one obtains 

(21) D=aa. 


Numer. Math. Bd. 3 15 
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Properties of the Matrix a 


Define the m Xm matrix «(m) by (18) where each of the matrices U* is an 
m xm matrix. Then if m,+-m,=m, one may partition «(m) as follows: 


r+ Mm pt mM hPL 
& (my) | 0 ff 
A& (mz, m;) 


-: 
& (1m) ft 
a a 


The matrix 4a(m,, m,) is an m, Xm, matrix whose elements in the u'" and 
v column are given by 





(22) a (m, + m2) = 








(23) Ay y= Sy vim: pape 
‘ v= 


where 
a; = O, ] P h. 


Note that if m,>h, the first m,—h columns of 4&(m,, m,) are zero. 


Stagewise Solution for Markoff Estimator of the Parameter Vector 
Let us divide the N observations into non-overlapping groups of k(t) each. 
Define 


r= 0, 
i 
therefore, 
m=k(ij=k+1, 
(25) r,=N. 
Define the observation matrix at the j" stage by 
(26) F, = (F(r;_-. +1) F(%;-1 + 2)... F()), 
and the cumulative observation matrix 
(27) R,;=(K&...F), 
where 


The matrices D and @ of (12) are of dimensions [k+ 1 xz;] and [r; x7,] at 
the j*" stage and their elements are defined by (9), (10), and (13) with N replaced 
by 7;. For purposes of identification in the following derivation, D at the? stage 
will be noted by D,; and ® by @;. A notation for a column or row matrix with 
a beneath such as R; or F; will indicate the last h elements of the matrix only. 
The relationship between the A; and A;_, will be obtained in the form of a 
recursive algorithm. 
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Equation (12) may be written: 


(28) A, = (D,a(r,) «(r,) Dy) + (Dye (r,) (7) R,). 
Define 

(29) D,&(r;) = 4H, 

(30) a (7;) Rj =G;. 

Then A; becomes 

(34) A, = (HH) H,G;. 


The recursive solution consists in expressing H,G; as a linear transformation 
of A;_,, the present observation vector F,, and the previous 4 transformed 
observations R;_, 

Let D; be partitioned into two matrices D;_, and AD;_, as follows, 


<4. > <4 Ki) > 


(32) D; =| D;-4 |AD, =}, 


where AD,_, is the k+1 Xh(j) matrix with elements, 


v=7;_, +1, 7;_1+2,...,%; 
AD,_, = (h,_, (¢,)), tes oe i ¥ 
(33) j-1 = (A, -1 (¢,)) ae 
From (22) and (23) one may partition &(7(j)) into the following: 
<4 j-1 ”, aA 
. & (7;_1) | 0 v 
. (34) a(7;) =] - 5 Beal 
04a a (a )) My 


athe kj) > 


where it is assumed that 7;_,—h>0, and 











OX, hyiy + 
O &, «+. 
bi! tyocd 
(35) AMM=)s > oy], 
: > 
10 0 0 | 
if hSk(j) and 
fo, Op a | 
O % Oe 
(36) A= OC’. 
LO wee O My... Opgy | 
Then if h>k(j), 
Se) | 
(37) Hy=[H1| 0 J+[ 0 |AD,,4é|AD;_,&(e())). 


15* 
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Similary, one may expand G; as follows, let 


(38) Gj_1 =«(7;-1) Rj, 
and partitioning «(7;) in a corresponding manner to &(r;) of (34). One has 
G. . 
(9) 6=[%]+ | aa? | Om. 
a. (F (7)) 


Combining (37) and (39) one finds 
(40) HjG;=Hj_,G,_,+ AD,_, 46 G,_, + (Hj_ Aa + AD;_,p” yp") F, 





where 
m Aa 
(4) ed WE 
a (%(7)) 
and the G;_, and H;_, notation indicates the matrix consisting of the last A 


elements of G;_, and the (k+1 XA) matrix consisting of the last h columns of 
H,_, respectively. 
Finally noting that 
(42) H;_,G;_,= Hj_, Hj, Aj-1, 
one obtains the main result of the paper 
o - ee AKG. 
(43) Ay = (Hyhy 3] aA at AD) Ae Gia + 
as (H,_, 4a” + AD;_,p" y”) F, 
Note that (43) may be written in the form, 
(44) HH; Aj = (Ly; Aj-1 + Lo; Gj-1 + Ls; F), 


where each of the linear transformations L,;, L,;, and L,; are obtained directly 
from (43). The solution (44) for A; is then of the form of a linear transformation 
on the present observation vector F;, the last A observations of the past G;_, 
and the previous parameter estimate A;_,. 


Recursion Equation for H; H; 
By expanding equation (37) one may easily show that 
H, H, = Hj_,H;_, + AD;-,4& Hy, + 
+ H;_, Aa” AD,_, + AD,_,9(j) pj) 4D,-1. 


Note that the two center matrices of (45) are transpose pairs but are not in 
general each symmetric matrices. 


(45) 


System Development Corporation 
2500 Colorado Avenue 
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Application of the method of the kernel function 
for solving boundary-value problems* 


By 
STEFAN BERGMAN and JOHN G. HERRIOT 


1, Introduction. Many problems in Engineering and Physics can be reduced 
to boundary-value ‘problems, i.e., to problems involving the determination of 
a function which satisfies a given partial differential equation inside a domain 
and which assumes prescribed values on the boundary of this domain. 

The method of the kernel function for solving such boundary-value problems 
in the theory of linear partial differential equations as developed by BERGMAN 
[2, 3, 4,5, 7] (see also [10, 11, 12, 13, 14]) consists essentially of three steps: 


1. A procedure for generating a (complete) set {h,}, »=1, 2,... of particular 
solutions of the partial differential equation. 

2. A procedure for deriving from this system a set of particular solutions 
{y,}, v=1, 2,... which are orthonormal in a suitable sense over a given domain. 


3. A procedure for determining from the prescribed boundary values a linear 
N 


combination >) a, y, approximating the desired solution. 
y=1 


While these problems have been treated extensively in a number of papers, 
(see literature cited in [6, 8]) the computational procedures have not been 
adequately studied because of the large amount of computation needed in the 
application of the methods. In a previous paper [5] written before modern 
high-speed automatic computers were in use, the necessary computational 
procedures were discussed for the type of punch-card machine then available. 
In the present paper we study the same example as in [5] in order to show how 
the computational procedures may be carried out by means of an automatic 
computer using a modern algorithmic language. We restrict our discussion to 
Laplace’s equation, since for it a set of particular solutions is known. We 
consider a domain with a symmetric boundary and study only symmetric boundary 
values. We show how to carry out step 2, the orthogonalization of the known 
set of particular solutions, and how to find an approximation to the solution 
as in step 3. We confine ourselves to this simple example because more compli- 
cated cases of the boundary-value problem are discussed by DAvis and RABINO- 
witz [11, 12, 13). 

The method of the kernel function also enables one to find the mapping 
function {(z) which maps a given simply connected domain conformally onto 


* This work was supported by the Office of Naval Research under Contracts 
Nonr-225(11) (NR-041-086) and Nonr-225(37) (NR-044-211). 
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a circle, For the symmetric domain referred to above we obtain an approxi- 
mation to the mapping function and we find that this mapping function maps 
the domain onto a nearly circular region. 

The determination of the mapping function which maps the domain onto 
a circular region is of considerable interest because it provides an alternative 
method for solving the bouncary-value problem, since the solution for the 
simpler circular domain may be readily obtained by means of Fourier series. 
Indeed the mapping procedure may be of value in solving more general differential 
equations of the form 


(1.01) Uy, + Uyy + au, +bu,+cu=0, 


where a, b, c are real and analytic. By means of the transformation which maps 
the given domain onto a circular region the above differential equation is trans- 
formed into one of similar form, and it may be easier to solve the resulting 
equation for the simpler circular domain. 

In order to make the present paper self-contained we summarize certain 
formulas and results which were obtained in previous papers [5, 7]. 

2. Solution of Laplace’s equation; harmonic functions. In this section we 
consider the problem of finding a function H(x, y) which is a solution of Laplace’s 
equation 


(2.01) 


au au 
oes tT py =O 
in a domain B and which assumes prescribed values on the boundary C of the 
domain B. If we let s denote the length along the boundary C measured from 
some fixed point, then the boundary values for H(x, y) may be given in the 
form H(x, y)=f(s) on C. 

In order to solve this problem it will be convenient to construct a complete 
set of particular solutions; i.e., harmonic functions y,(x; y), v=1, 2,... which 
are orthonormal over B in the sense that 


(2.02) Yu y,ds = byy, 6,,=0 for w+», 4,,=1, 
C 

where as usual 0w,/0n denotes the outward normal derivative on C. The desired 

function H(x, y) may then be expressed in the form 


(2.03) H(x,y)=a+ D4,y(% 9), = fis) Beas, 
v=1 C 


where c, is a constant. A proof of this statement may be found in [2, 6, 8]. 


Let B be a simply connected bounded domain with a sufficiently smooth 
boundary. We now explain how one can construct the set of orthonormal 
particular solutions in this case. It is well known that in this case Re(z") and 
Im(2"), z=x+7y, n=O, 1, 2,... form a complete set of particular solutions of 
the equation (2.01). It is convenient to begin with the complex-valued particular 
solutions 


(2.04) h, (2) = 2*-!, % = 1,2, 3,2... 
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We shall need to calculate 
(2.05) Fn = tn» Fin) = SJ (2) h,, (2) (z)dxdy, m,n = 1, 2,}3,... 


where, as is usual, h, (z) denotes the complex conjugate of h,,(z). We then apply 
an orthonormalizing procedure to determine a set of functions {y,} which are 
orthonormal over B in the sense that 


(2.06) (Pm> Pn) = Jf Pin (2) Py (2) dx dy = 46, ,- 
The functions {y,} are expressed in the form 
(2.07) va(2) = 3 dy hy() 


where the d,,, are calculated from the F,,,,. The calculation of the constants is 
explained in detail in section 4 for a particular example. 


Next let 
(2.08) ®,,(z) = J Pn (2) 4z = Wan-1(%, ¥) +4 Pon(%, ¥), 


where w2,_1(%, y) and we,(%, y) are the real and imaginary parts of @,(z), 
respectively. 

Note that ®,(z) is a polynomial of degree m in z and that y,,_,(x, y) and 
We, (x, y) are polynomials of degree m in x and y. 

Then the desired solution can be expressed in the form (2.03). The coefficients 
A, may also be expressed in the following alternative form as described in [5] 


As,-1 = J f(s) dws ,(s), 
ad y 
A,,=—f f(s) 4v2,-1(9)| 
Cc 


In a practical problem, the infinite sum of (2.03) must_be approximated by 
a finite sum. 

We thus See that the solution of the boundary value problem is reduced to 
the following computations: 

(i) Evaluation of the integrals F,,,, given by (2.05). 

(ii) Evaluation of the constants d, , appearing in (2.07). 

(iii) Evaluation of the coefficients A, given by (2.09). 

(iv) Determination of the sum of a finite number of terms of (2.03) as an 
approximation to H(x, y). 

Using an illustrative example we shall describe in section 4 how each of 
these operations can be carried out on a high-speed automatic computer. 

In the preceding discussion we started with a set of analytic functions of 
a complex variable in order to obtain a set of orthonormal harmonic functions. 
In the case of differential equations other than the Laplace equation one has 
to orthogonalize fhe set of particular solutions by requiring directly that (2.02) 
hold. We do not discuss here the modification required in this case*. 


(2.09) =1,2,.... 


* A procedure for deriving a complete set of solutions of (1.01) is described in [4], 
see also [7a] where linear equations in two and three variables are considered. 
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3. Mapping the domain onto a circular region. When thé orthonormal 
system {g,(z)} defined by (2.07) has been obtained, one may define ‘the kernel 
function for the domain B by the formula 


(3.04) K(z,) = 2 (2) (0). 
It has been shown by BERGMAN [2, 6] (see also [9, 10]) that the function 


(3.02) w (z) = Ke, 0)dz= THO @, (2) 


maps the domain B onto a circle. 

Since @,(z) is a polynomial of degree » in z we see that the approximation 
té w(z) obtained by taking a finite number of terms in (3.02) will be a polynomial 
in z. When the F,,, of (2.05) and the d,,, of (2.07) have been calculated, it is 
then a simple matter to calculate the coefficients of this approximating poly- 

| nomial, and to determine the map of the boundary 


SS yz of the domain B by this polynomial. 





Using the same illustrative example as in section 4, 
| a) we shall describe in section 5 how these calculations 
gi LH 5 can be carried out on a high-speed automatic com- 
— Ty; puter. 


val | SS 4. An example of the solution of Laplace’s 








equation. We consider the same example studied 
in [5], namely an 8-fold symmetric domain of the 
shape shown in Fig. 1. The domain B is a star-shaped 
i 1 domain, i.e., its boundary C can be represented in 
polar coordinates (r, 6) in the form r=7 (6), OS 0S 2a. 
Since the domain has 8-fold symmetry, the calculations will be considerably 
simplified. The values of 7(@) for OS @<45° are given in the second column 
of Table 1, p. 213. 
We seek an approximation to a harmonic function H(x, y) which assumes 
the values r?(6) on the boundary C. 
The first step is to evaluate the constants J;,,,,. The double integral can be 
replaced by a single integral. 


Indeed 
2x 1r(0) 
=f e- 17q- ‘dady=f fore 1 gi(h—9)9 do dO 





il 
“si {7 [7 (6) ]?** cos(p — g) 040+ if [7 (0) |? *4 sin (p — q) aao}. 
Because of the symmetry of the domain B it follows that the imaginary 
part of F,, vanishes and indeed F,,=0 unless |p —gq| =0, 4, 8,.... Thus the 
non-zero values of F,, are given by the formula 
n/4 
(4.02) F,4=Fyp= xe | (r/0)]* cos L0 a0 


0 


where £+qg=AK, p—q=L. 





Ce 
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Table 1.. Values of (6), r?(@), Han,—Can,, Han, on boundary C of B 























e | = Tl Hyle,9)—Cw |  Hyle, 9) Hule,9)—Cu |  Hale,?) 
| 

0 | 2.722 | 7.41 — 1.310 7.163 — 1.082 7.331 

: | om 7.420 — 1.293 7.180 — 1.062 7.354 

4 | 2.728 7.447 — 1.248 7.225 — 1.009 7.404 

6 | 2.737 7.491 —1.174 7.299 —0.931 7.482 

8 | 2.749 7.557 — 1.070 7.403 —0.839 7.573 
10 2.764 7.640 — 0.937 7.536 —0.744 7.669 
12 2.783 7.745 —0.778 7.695 —0.651 7.762 
14 2.805 7.874 —0.594 7.880 —0.556 7.857 
16 2.831 8.020 — 0.387 8.086 —0.447 | 7.966 
18 2.862 8.191 —0.162 8.312 —0.305 8.108 
20 2.896 8.393 —0.079 8.552 —0.109 8.304 
22 2.936 8.620 0.332 8.805 0.148 8.561 
24 2.979 8.880 0.588 9.061 0.455 8.868 
26 3.028 9.169 0.842 9.316 0.785 9.198 
28 3.083 9.504 1.087 9.561 1.101 9.514 
30 3.143 9.878 1.309 9.783 1.391 9.804 
32 3.210 10.304 1.500 9.973 1.722 10.135 
34. | «= 3.276 10.732 1.628 10.104 2.199 10.612 
35 | 3.291 10.837 1.634 10.108 2.384 10.797 
36 =| 3.291 10.837 1.605 10.079 2.397 10.810 
37 3.273 10.719 1.548 10.021 2.162 10.575 
38 3.236 10.476 1.472 9.945 1.745 10.158 
39 3.179 10.106 1.383 9.857 1.311 9.724 
40 | 3.122 9.691 1.307 9.781 1.014 9.427 
41. | 3.049 9.303 1.223 9.697 0.836 9.249 
42 | 2.990 8.940 1.160 9.633 0.751 9.164 
43 2.941 8.655 1.110 9.583 0.712 9.125 
44 2.912 8.486 1.081 9.554 0.694 9.107 
45: 2.903 8.428 1.072 9.545 0.688 9.101 








In practice these integrals will be evaluated numerically; for example, if the 
trapezoidal rule is used, the integral 
B 


S t(x)ax 


a 


will be approximated by the sum 


(4.03) A(ehoth+fet-+++bm-1+ ohm) 


where h=(8 —«)/m and /;=/(«+jh). Because of the way in which the values 
of r(@) are given in table 1, the trapezoidal rule will be applied separately to 
each of the intervals (0, 34°) and (34°, 45°). 

The coefficients F,; were evaluated for 1,725 using a program written in 
the Burroughs version of the ALGOL language on the Burroughs 220 electronic 
computer. All other calculations in this paper were carried out in the same 
manner and the complete program is given in the appendix of this paper in 
ALGOL 60 notation [7]. The first portion of the program describes the calcu- 
lation of F,; which are denoted by HH[i,7] in the ALGOL program. For 7,7<9, 
the calculated values of F,; were found to agree closely with the earlier results. 


(See [5; p. 74].) 
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The next step is the determination of an orthonormal set of harmonic functions 
from the set {h,;(z)}. We apply the usual method of orthogonalization. We 
write @, (z) =¢,,/, (z) where c,, is determined so that (y,, y,) =1, and then proceed 
‘successively. Suppose that the first s—1 functions g;(z) are orthonormal.’ To — 
obtain g;(z) we write 


(4.04) A= Ley ole) + eh), 


and we determine the ratios e;;=c;,/c,;; so that ,(z) is orthogonal to the first 
*—1 functions g;(z). Further we determine ¢;; so that g;(z) is normalized, i.e., 


(%;, 9) =1. 
By repeated substitution in (4.04) we also express g;(z) in the form 


(4.05) (2) = Dosh). 


The details of the calculation of c;; and d;; are found in the procedure orthog 
which is part of the ALGOL 60 program in the appendix. 


Next we let 
(4.06) ,(2) = f os(e) dz. 
Then on using (4.05) and recalling that h,;(z)=2z/—' we find that 
(4.07) ®, (2) = Saye! a;,=4,,/j. 


If we now take the real and imaginary parts of ®;(z) we obtain the system 
of functions 


Yoi-1(*, ¥) = Re(@, (z)) = a;;7' cosj0, 


M.. 


1 


1 


Y2i(*, y) = Im (9, (z)) mm, 


j=1 


(4.08) 


i? 


j . . 
a;;r'sinj@. 


These functions are orthonormal in the sense of (2.02). 

The coefficients a;; were calculated for 1,725. Because of the symmetry 
of the domain B one finds that a,;,=0 unless 1—7=0, 4, 8,.... The non-zero 
values of a;; are given in Table 2, p. 215. They are seen to agree closely with the 
earlier results of [5] which went only as far as 1, 7=9. 

The solution of the boundary value problem now takes the form (2.03) where 
the coefficients are given by (2.09). On account of the symmetry of the domain 
under consideration we find that the only coefficients which do not vanish are 


Ay, Ayg, Age, -:- 
For these coefficients we then have 
(4.09) Ag,-1=8f f(s) dywe,(s), »=4,8,12,..., 
Cy 


where Cy denotes the portion of C between 6=0 and 6=2/4. Let 
(4.10) D;=J f(s) d(r'sinj@), 7=1,2,3,..., 
G 
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Table 2. Values of non-zero a;; 
































i 7 | ayy X 107? ? 4 | j | ayy X 10-P p 
1 1 .19067349 0 18 6 — .39202000 —5 
2 2 .45197864 —1 18 10 25582493 —5 
3 3 .12270246 —1 18 14 38441105 —7 
4 4 .35046367 —2 18 18 30000518 —9 
5 1 32124955 —1 19 3 .98364776 —3 
5 5 10402024 —2 19 7 .31140757 —§ 
6 2 11788785 -1 19 11 .91417472 —6 
6 6 31431411 —3 19 15 13084136 —7 
7 3 .42229406 2 19 19 .96534000 | —10 
7 7 .96056707 —4 20 4 34702462 —3 
8 + .14817569 —2 20 8 .26726275 ~§ 
8 8 .29567471 —4 20 12 32557415 —6 
9 | 1 18336094 | —1 20 16 .444 56606 —8 
9 | 5 52914764 —3 20 20 31106710 | —10 
9 | 9 .91817142 —5 a 1 — .66127620 —2 
10 | 2 73791085 —2 a 5 11756388 —3 
10 | 6 .18764670 «~% 21 9 -14640433 = § 
10 10 28672335 —5 21 13 11566033 —6 
11 3 .29026478 —2 21 17 -15077397 ~=§ 
11 7 .66154174 —4 21 21 .10042119 | —10 
11 11 .89974573 | —6 22 2 — .22787155 —2 
12 4 .11188388 —2 22 6 .40480546 4 
12 8 23201077 —4 22 10 | .69384390 —6 
12 12 28359616 —6 22 14 .40960569 —7 
13 1 —.98217020 | - —2 22 18 .51071517 —9 
13 5 .41268604 —3 22 22 .32454988 | —11 
13 9 -80633833 = § 23 3 — .78218673 =§ 
13 13 .89871453 —7 23 7 14181796 —4 
14 2 — .29990580 —2 23 11 30465745 —6 
14 6 .15099860 —3 23 15 | .14464651 —7 
14 10 27891170 —5 23 19 | .17280031 —9 
14 14 28573622 —7 23 23 .10499437 | —11 
15 3 — .87062666 —3 24 4 | — .26700765 —3 
15 7 . 54846898 —4 24 8 |  .50546031 =§ 
15 11 .96075336 —6 eo - Tt. | 12754870 —6 
15 15 .91108886 —8 24 16 | .50945825 —8 
16 4 — .23465547 —3 24 20 | ~~ .58407500 —10 
16 8 19797911 |  —4 24 24 | .33996349| —12 
16 12 .32974009 —6 25 1 | .56872970 —2 
16 16 29124146 —8 _ 5 | —.84826220 —4 
17 1 .82338870 —2 25 | 9 | .18520235 —5 
17 5 —.47180060 —4 25 13. | ~— -§1589807 an # 
17 9 -71319341 —5 25 | 17 | ~ .17903885 —8 
17 13 11271449 —6 25 | 21 | .19722057| —10 
17 17 .93386952 | —9 25 | 25 | .11021082; —12 
18 2 | .28281110 | —2 | | 





where in this Stieltjes integral it is understood that ry and @ are considered as 
functions of s, the arc length along the boundary measured from some fixed 
point. If we use (4.08) we find at once that 


(4.14) Agy-1 = 8 D 4 4; Daj; y= 4, - > ae 
j=1 
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In practice the integral in (4.10) will be evaluated numerically; for example, 
if a procedure analogous to the trapezoidal rule is used, the integral 








B. 
St(s) dg(s) 
a 
will be approximated by the sum 
(4.12) Pee ) us By): 
where h=(8—«a)/m and f,=/(«+ 
Table 3. Values of non-zero A, (u— 1)h), 8,=8 (a+ (u—1)A). In 
5 Y% - ite our case of course, /(s)= [7 (6) |? 
and g(s)=y’sinj@. Because of the 
7 | —4.7217033 | 31 | —1.4752060 way in which the values of r(6) 
15 | —2.3562597 | 39 1.1134045 are given in Table 1, this formula 
23 2.0695787 | 47 | —0.98303984 will be applied separately to each of 











the intervals (0°, 34°) and (34°, 45°). 

The values of A,, A,s,..., Agz were Computed and their values are listed 

in Table 3. . Five different approximations to the solution H(x, y) were computed 

using different numbers of terms in the series. These approximations were of 
the form 


No 
(4.13) Hgy,(%, ¥) = Cen, + 2X Aby-1 Yey—1(%, y), 


where 8N,—1=2N—+3, and N was 9, 13,17, 21, 25; thus N, was 2, 3, 4, 5, 6. 
. Since the infinite sum of (2.03) was replaced by a finite sum Hgy,(x, y), it was 
not to be expected that 


No 
(4.14) 72 — 2 Asy—-1 Yar-1(% y) 


would be exactly constant on the boundary. In order to obtain an “‘average”’ 
value for each of cgy, we computed the difference given in (4.14) at the given 
boundary points and averaged this quantity to obtain cgy. It was found that 
Cyg= 8.4733186 and cyg=8.4129210. The values of Hgy,(x, y) at the given 
boundary points were then computed and the values corresponding to Ny=2 
and 6 are given in Table 1. They compare quite well with the given boundary 
values v2(6) which are included in the table for comparison. 

Using equation (4.13), values of Hgy,(o, 8) were calculated at a number of 
points of B. (We use Hgy, (0, 6) to mean Hgy,(x, y) where x=ocos8, y=gsin6.) 
These values are given in Table 4, p. 217 for Nj=2 and 6. 

5. Calculation of the mapping function. In section 3 we saw that the function 


co (— 
(5.01) w(z)= 2% (0) ®, (2) 
maps the domain B ontoa circle. From (4.05) and (4.07) we see that , (0) =d,, =4,). 
Hence from (4.07) we have 


oo v co 
(5.02) w(z) = Da, D a,;2 => w;2, 
v=1 j=l j=1 
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where 
(5.03) wv; = D4 a,;- 
v=j 


We shall be interested in calculating the real and imaginary parts of w(z), 
which are given by 


(5.04) Re (w(z)) = } w,r'cosj8, Im (w (z)) = Dw, r'sin7@. 
j=1 j=l 


Table 4a. Values of H,(0, 6) in B 





T 


ou 0.5 ~ | ww | @ | es le 





| 
| 
0° | 8.472 | 8.453 8.370 8.135 7.584 
5° | 8.472 8.454 8.377 8.158 7.656 
10° | 8.472 | 8.458 8.395 8.225 7.855 
15° | 8.473 | 8.463 8.423 8.322 | 8.135 
20° | 8.473 , 8.470 8.457 8.434 8.437 
a6? ! 8.474 | 8.477 8.493 8.546 8.709 9.185 


30° | 8.474 | 8.483 | 8.525 | 8.643 | 8.918 | 9.513 
35° | 8.474 8.489 | 8.551 | 8.716 | 9.055 | 9.637 
40° | 8.474 | 8.492 | 8.567 | 8.761 | 9.127 | 9.648 
45° | 8.475 | 8.493 | 8.573 8.776 9.150 9.639 

















Table 4b. Values of H4.(v, 0) in B 


ou 0.5 | a 1. 2.0 2.5 3.0 


0° | 8.412 8.396 8.327 8.133 7.686 
5° | 8.412 8.397 8.332 8.152 | 7.746 
10° | 8.412 8.400 8.348 8.205 | 7.900 
15° | 8.412 8.405 8.371 8.285 8.109 
20° | 8.413 8.410 8.399 8.378 8.356 


| 
25° | 8.413 8.416 8.429 8.473 | 8.607 9.028 








30° 8.413 8.421 8.456 8.555 8.805 9.482 
35° 8.414 8.426 8.478 8.617 8.918 9.629 
40° | 8.414 8.429 8.491 8.653 8.954 9.332 
45° | 8.414 8.430 8.496 8.665 | 8.956 9.039 

















Because of the symmetry of the domain, a,;=0 unless »y—7=0, 4, 8,.... 
Consequently w;=0 unless 7=1, 5,9,.... 

In order to carry out the calculations, the infinite series in (5.01) must be 
replaced by a finite series. Corresponding to the five different approximations 
to the solution of the boundary value problem discussed in section 4, we replace 


(5.01) by 





with N=9, 13,17, 21,25. This means that in (5.03) the upper limit is also 
replaced by N. For these five values of N, the coefficients w; were calculated 
and the images of the given points on the boundary were calculated. For N=25 
the values of |w/(z)| and arg w(z) for each of the given boundary points are 
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tabulated in Table 5. It is clear that the map of the boundary is very nearly 
a circle. The departure from the expected circle is seen to be greatest from 
6=35° to 6=45° where the boundary has its greatest curvature. 


Table 5. Map of boundary C (N=25) 
































6° |w| | arg w @° |w] argw eo |w|  argw 
0 -1103 0 20 -1103 -4270 37 -1104 .6281 
2 -1102 .0460 22 -1102 .4666 38 -1116 .6361 
4 -1100 -0913 24 »1099 .5028 39 -1121 .6562 
6 -1099 -1357 26 -1097 -5344 40 -1117 -6800 
8 .1098 .1787 28 -1098 .5617 41 -1101 .7062 
10 -1097 .2206 30 -1103 5865 42 -1085 .7287 
12 -1097 .2619 32 -1108 .6115 43 .1069 -7489 
14 -1099 .3029 34 -1104 .6320 44 .1060 -7675 
16 -1101 -3442 35 .1098 .6338 45 -1057 -7854 
18 -1103 | .3858 36 -1097 .6301 


6. Modification for non-symmetric domains. In order to save calculation 
time a symmetric domain was used for the example of sections 4 and 5. How- 
ever only minor modifications are needed to handle non-symmetric domains. 
' We now explain the necessary modifications. 

For a non-symmetric domain F,, given by (4.01) will, in general, be complex, 
but F, »=F,, in all cases. Thus two integrals instead of one must be evaluated 
for each F,, and each of these can be replaced’by a sum in a manner similar 
to (4.03). 

The determination of the orthonormal functions proceeds in a manner similar 
to the symmetric case. The procedure orthog which is given in the ALGOL 60 
program must be modified to take account of the complex nature ofF,, (HH[i, 7] 
in the ALGOL program). The coefficients c,;, d;; and a;; which appear in (4.04), 
(4.05) and (4.07) are also complex although c;;, d;; and a;; are all real. 

If we denote the real part of a;; by a!) and the imaginary part by a‘), we 
find that the desired system of functions is given by 


Yoi—1(%, ¥) = Re (®;(z)) = ¥ (al) r'cos 76 — af} r’sin7‘6), 
(6.01) ve 
2: (*, ¥) = Im (@,(z)) = 2 (ay; r' cosj@ + af?) r’sin7 4). 
j= 


47 


The solution of the boundary value problem again takes the form (2.03) 
where the coefficients are given by (2.09). If analogously to (4.10) we let . 


(6.02) D” = f f(s) d(r'cos76), D?) = f f(s) d(r'sin76), 
c c 
we find that 


2) ni 1) ni2 
Ay,_1 (a‘*) D‘ y+ al) D‘ iP 


y=1,2,3,.... 


~ 
i 


T 
it4- 


(6.03) 


I 
M: 


1) na 2) 7)(2 
Ag, (ali D\ )— at’) D} ) 


1 


j= 


The integrals (6.02) will be approximated by sums, as were those in (4.10). 
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Appendix: The ALGOL 60 Program 
comment For a domain with 8-fold symmetry this program constructs a set 
of orthonormal functions and then uses them to find an approximation to the 
solution of a harmonic boundary value problem. It also calculates the mapping: 
of the domain onto a circular region. The boundary of the domain is represented 
in polar coordinates r=r(theta). The input consists of a set of values of 7 
corresponding to theta=0, 2, 4, ..., 34, 35, 36, ..., 45 degrees. We first construct 
the orthonormal functions; 
integer i, 7, k, 1, m, n, nu, nm, th; 
array 7, hin, mapr, mapi, modmah, thmap[1:29], dsum, haa[1:24], 
ha[1:47], hfcen{i:5], hfcen[1:6], f[1:25], HH, a, b[1:25, 1:25]; 
real avt,.const; 
size:n:= 25; 
begin 
comment We first calculate HH [1,7] (denoted by F; in sections 2 and 4), 
the innerproducts of the functions h;(z)=z{(i—1).. We need an integration 
procedure; — 
real procedure trap (a, b,m,F); value a,b,m; integer m; real a,b; real 
procedure F;; 
comment Calculates integral of F from a to b by trapezoidal rule using 
m subintervals. F is defined from an array so that the argument of F 
runs from 1 to m+1; 
begin integer ;; real sum; 
sum : = (F(1) + F(m + 1))/2.0: 
for ;:=2 step 1 until m do 
sum := sum + F(); 
trap : = ((b — a)/m) xsum 
end trap; 
for ::=1 step 1 until » do 
for ;:=1 step 1 until do 
HH [i,7]:=0; 
begin 
real procedure F1(/); value #; integer 7; 
comment calculates value of F1 (); 
comment global! integer ,/, array 7; 
F1:=1[p] { k xcos ((p — 1) x 0.034906585 x) ; 
real procedure F2(p); value 4; integer 7; 
comment calculates value of F2(p); 
comment global integer k, /, array 7; 
F2:=r[p + 17] t & xcos ((0.59341195 + (p — 1) X0.017453293) x/); 
for i:=1 step 1 until » do 
for ; :=7 step 4 until do 
begin 
l:=i—q; k:=144+7; 
HH [i,j] := (8.0/k) x (trap(0, 0.59341195, 17, F1) 
+ trap (0.59341195, 0.78539816, 17, F2)) 
end; 
end end innerproduct calculation; 
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comment The values of HH[1,7], 727, have now been calculated and may 
be printed by a suitable output procedure. We next orthogonalize; 
begin 
procedure orthog (HH, m) result: (c,d); value m; integer m; 
array HH, c,d; 
~~ comment Let /[i] for i=1, 2, ..., m denote a sequence of functions 
with innerproducts HH [1,7] which are all real. This procedure cal- 
culates the coefficients c[i,7] and d[t,7] so that 
phi [i] =clt,1] xphi[1] +---+c[t,¢-—1] xphi[t —1] + c[t,¢] xhA[s] 
=d[1,1] xh[1]+---+d[t,72] xh[z], $= 1,2,..., 
is an orthonormal system. c[?t,7]=d[t,7]=0 if 7>7; 
begin 
integer 7,7, 2; 
for;: =1 step 1 until m do 
e[1,7] = HH [1,7]; 
for::=2 step 1 until m do 
begin 
for): =1 step 1 until 1—1 do 
e[t,7):= — eff, t]/e,9); 
for;:=17 step 1 until m do 
begin 
c(i, j):= HH [i]; 
for: k:=1 step 1 until 7—1 do 
c[t,7]:=c[t,7] +c[t, k] xc[k,7] 
end 7; 
for ;:=1 step 1 until :— 1 do 
cli, j] := cli, g] x sqrt (cL. Vela, 4) 
end 7; 
for 1:=1 step 1 until m do 
c[t, 7] :=1.0/sqrt (c[t, 2]); 
for 1:=1 step 1 until m do 
c[s,7]:=0; 
for 1:=1 step 1 until m do 
for }:=1 step 1 until m do d[i,7]:=0; 
a[1,1]:=c[1,4]; 
for 1:=2 step 1 until m do 
begin 
for ;:=1 step 1 until 7—1 do 
begin 
a[t,7]:=0; 
far k:=j7 step 1 until 1—1 do 
d{i,j):=d[i,j) + eli, A] xd [hu] 


end ;, 
d[t,7]:=cf[t, 2] 
end 1 
end orthog; 
orthog (HH, n) result : (4, a); 
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for 1:=1 step 1 until do 
for 7:=1 step 1 until 7 do 
a[t,7):=alt.7)/7 
end a[t,7] calculation; 
comment The values of a[t,7], 77, have now been calculated and may be 
printed as output. The functions psi [27 — 1]=sum of a[#, 7] xrfj xcos(j x theta) 
for 7=1 to i and pst[27]=sum of a[t, 7] xrt7 xsin(j xtheta) are now available. 
We now calculate the coefficients in the series expansion of the solution; 
begin 
real procedure stieltjes (a, 6, m, F,G); value a,b, m; integer m; real a, b; 
real procedure F, G; 
comment Calculates an approximation to the Stieltjes integral from a 
to b of F xdG using m subintervals and a method similar to the trapezoidal 
rule. F and G have arguments which run from 1 to m+1; 
begin 
integer ;; real sum; 
sum := 0; 
for 7:=1 step 1 until m do 
sum := sum + ((F(j) + F(j + 1))/2.0) x (G(j + 1) — G(j)); 
stieltjes = sum 
end stieltjes; 
real procedure F3 (4); value /; integer /; 
comment global array 7; 
F3:=r1[p] f 2; 
real procedure F4(/); value #4; integer 7; 
comment global array 7; 
F4:=r[p +17] f2; 
real procedure G}3(/); value 4; integer /; 
comment global integer ;, array 7; 
G3 :=1r[p] tj xsin ((p — 1) x 0.034906585 xj) ; 
real procedure G4(f); value /; integer /; 
comment global integer j, array 7; 
G4:=r[p + 17] t7 xsin ((0.59341195 + (p — 1) x0.017453293) xy) ; 
for 7:=4 step 4 until »—1 do 
dsum [7] : = stieltjes (0, 0.59341195, 17, F3, G3) 
+ stieltjes (0.59341195, 0.78539816, 11, F4, G4); 
for nu:=4 step 4 until »—1 do 
begin 
ha[2xnu —1]:=0; 
for 7:=4 step 4 until nu do 
ha[2xnu —1]):=ha[2xnu —1]+a[nu,7] x dsum[j]; 
ha[2xnu —1]:=8.0xha[2xnu — 1] 


end nu 
end coefficient calculation ; 
comment The nonzero coefficients ha[7], ha[15],... in the expansion of 


the solution in terms of psi[7], #st[15], ... have now been calculated and may 
Numer. Math. Bd. 3 16 
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be printed. We now truncate the solution at #si[15], ps¢{23],... in turn and 
evaluate the tentative solution on the boundary and average to get the constant; 
for nm:=9 step 4 until » do 


begin 


for 7:=4 step 4 until nm — 1 do 
begin 
haa{[j]:=0; 
for nu:=j7 step 4 until nm —1 do 
haa(j]:=haa[j]+ha[2x nu —1] xa[nu,7] 
end; 
for m:=1 step 1 until 18 do 
begin 
hfin[m] :=0; 
for j7:=4 step 4 until nm — 1 do 
hf{n[m]:=hf{n[m] + haa[j] xr[m] {7 xcos 
((m — 1) x0.034906585 x7) 
end; 
for m:= 19 step 1 until 29 do 
begin 
hfn{m]:=0; 
for ;:=4 step 4 until »m—1 do 
hfn[m]:=hf{n[m] + haa[j] xr[m] {7 xcos 
((0.59341195 + (m — 18) x0.017453293) x7) 
end; 
comment jAjn[m], m=1,2,...,29 is available for output ; 
avt:=0; 
for m:=1 step 1 until 29 do 
avt:=avt+r[m]|2—hfn[m]; 
const : = avt/29.0; 
for m:=1 step 1 until 29 do 
hfn[m] := const + hfn{m]; 
comment The constant and the corrected boundary values have been calculated 
from the approximate solution and are available-for output. We now evaluate 
the approximate solution at a set of interior points, making them available for 
output ; 
for 1:=1 step 1 until 5 do 
begin 
th:=5x(t— 1); 
for j:=1 step 1 until 5 do 
begin 
_Afen{j] := const; 
for m:=4 step 4 until nm —1 do 
hfen[j].:=hfcn[j] + haa[m] x (0.5 xj) | m 
x cos ((i — 1) x 0.087266463 x m) 
end j 
end 7; 
for i:=6 step 1 until 10 do 
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begin 
th:=5x(i —1); 
for 7:=1 step 1 until 6 do 
begin 
hfcen[j] := const; 
for m:=4 step 4 until nm —1 do 
hfcen[j]:=Afcen[j] + haa[m] x (0.5 x7) | m 
x cos ((i — 1) x 0.087266463 x m) 
end j 
end :; 
comment We now map the boundary onto a circle; 
for 7:=1 step 4 until xm do 
begin 
{U7]:=0; 
for k:=j7 step 4 until »m do 
fi}:=fU) + @[h, 1] xalh, 7] 
end; 
comment /[j] are the coefficients of z{j in the expansion of the mapping 
function (they are denoted by w; in section 5); 
for m:=1 step 1 until 18 do 
begin 
mapr[m]|:=0; mapi[m] :=0; 
for ;:=1 step 4 until »m do 
begin 
mapr(m]:=mapr([m] +f[j] xr[m]|7 x ccs ((m— 1) x0.034906585 x7) ; 
mapt[m]:=mapi [m] +/[j] xr[m] {7 xsin ((m— 1) x0.034906585 x7) 
end j 
end m; 
for m:=19 step 1 until 29 do 
begin 
mapr|m): =0; mapi[m]:=0; 
for j:=1 step 4 until nm do 
begin mapr[m]:= mapr[m] + f[7] xr[m] tj 
x cos ((0.59341195 + (m — 18) x0.017453293) x7); 
mapi tm] := mapi[m] + lj) xr[m] ti 
x sin ((0.59341195 + (m — 18) x0.017453293) x) ; 
end 7 
end m; 
for m:=1 step 1 until 29 do 
begin 
modmap([m]:=sqrt(mapr([m]{2+ mapil[m|] | 2); 
thmap[m):=arctan(mapi[m|/mapr[m)) 
end; 
comment Both rectangular and polar coordinates of points on the map of the 
boundary are now available far output; 
end: nm 
Numer. Math. Bd. 3 
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Remarks on the ALGOL 60 Program 


This program solves the harmonic boundary-value problem for the domain 
B as described in section 4. The boundary values were taken to be r?(6) on 
_the boundary. Since ALGOL 60 does not provide directly for input-output 

statements, we have indicated in the comments the appropriate points at which 
input-output procedures are to be inserted. 

This program may be used to solve the same harmonic boundary value 
problem for any 8-fold symmetric region which has a sufficiently smooth boundary. 
It is only necessary to furnish the values of 7(@) for 9=0°, 2°, 4°, ..., 34°, 35°, 
36°, ..., 45°, where r=7(0), OS 05360°, is the polar equation of the boundary: 
(See table 1 for the present example.) 

The program is set up to calculate the coefficients a;; which appear in the 
formulas for ®;(z), yo;-1(*, vy) and w2;(%, y) fortssm. By means of the statement 
labelled ‘“‘size’’ n is set equal to 25. For this choice of m, the series expansion 
of the solution can be obtained as far as the term involving y,.(x, y). However, 
because of the 8-fold symmetry, the term with highest subscript which appears 
with a non-zero coefficient A, is actually y,,(x, y). The array declarations have 
been made to take advantage of this situation. Approximations to the solution 
aré obtained by truncating the series solution after the term involving Vonm)—3 
for nm=9, 13,..., 25. Approximations to the mapping function are obtained 
by truncating the series (3.02) after the term for which y=nm, also for nm= 
9, 13, ..., 25. 

One may alter the upper limit » by changing the statement labelled ‘‘size’”’ 
in an obvious way. It is most advantageous to choose » of the form 4p+1 
where # is a positive integer. The array declarations must also be changed to 
correspond to the altered value of ». If is chosen of the form 4#+41, then 
the limits in the array declaration should be changed as follows: dsum and haa 
should be 1:”—1, ha should be 1:2” —3, f should be 1:” and HH, a, b should 
be 1:”, 1:0”. 

In case one should wish to change the prescribed boundary values it is only 
necessary to change the procedures which define the functions F3(p) and F4(). 


This program was written by transcribing, as far as possible on a statement- 
by-statement basis, the Burroughs ALGOL program which was used on the 
Burroughs 220 to obtain the results given in this paper. The only differences 
between the forms of the two programs occurred in the transcription of the 
procedures which are included. These differences are a consequence of the 
somewhat different forms of the procedure headings and the different rules 
governing local and global variables in the two languages. Moreover the proce- 
. dures used to define the functions F1, F2, F3, F4, G3 and G4 were replaced by 
function declarations in the Burroughs program. Aside from these minor changes, 
and the insertion of input-output procedures, the program which was actually 
compiled and run on the Burroughs 220 was identical with the ALGOL 60 
program which is given in this appendix. 

The Burroughs 220 electronic computer which was used for the calculations 
described in this paper was equipped with 8000 words of magnetic core storage, 
punched-card input and output, 5 magnetic tapes and a line printer for on-line 
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output. The Burroughs ALGOL program was translated on this machine by the 
Burroughs Algebraic Compiler into a machine language program which was 
then utilized to carry out the computations. 
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Jordan-Elimination und Ausgleichung 
nach kleinsten Quadraten* 


Von 


PETER LAUCHLI 


1, Einleitung 

Die klassische Ausgleichsrechnung nach der Methode der kleinsten Quadrate 
hat bis heute ihre Bedeutung beibehalten, auch wenn sie in neuerer Zeit durch 
das Studium anderer Ausgleichsprinzipien, so vor allem des Tschebyscheffschen, 
teilweise in den Hintergrund gedrangt wurde. Die Starke der GauBschen Methode 
liegt unter anderem darin, daB eine geschlossene elementare Theorie vorliegt, 
welche die Lésungen explizit als lineare Funktionen der MeBgréBen gibt. 

Ist nun auch die Theorie einfach, so treten doch sofort ernsthafte Probleme 
auf, wenn es darum geht, umfangreichere Ausgleichungen tatsadchlich durchzu- 
fiihren. Solche Aufgaben kénnen sich — etwas salopp ausgedriickt — bei der 
Behandlung gut- oder bésartig verhalten. 

Genauer: Die algebraische Lésung der Ausgleichsaufgabe — n Gleichungen 
fiir m Unbekannte, n>m — fiihrt iiber die Forderung, daB die Quadratsumme 
(v, v) der Verbesserungen minimal werden soll, auf ein System von m linearen 
Gleichungen (GauBsche Normalgleichungen). Bekanntlich sind die Schwierig- 
keiten der numerischen Gleichungsauflésung gréBer bei Systemen schlechter 
Kondition, das hei®t dann, wenn das Verhiltnis zwischen absolut gré8tem und 
absolut kleinstem Eigenwert “der Koeffizientenmafrix groB ist. 

In diesem Falle sind dann auch die Unbekannten beziiglich gewisser Achsen- 
richtungen des ,,Fehlerellipsoides’ (v, v) = konst. viel schlechter bestimmt als 
fiir andere Richtungen. Und schlieBlich ist ein schlecht konditioniertes System 
auch dadurch charakterisiert, daB die Ebene F’, welche von den Spaltenvektoren 
der Fehlergleichungsmatrix aufgespannt wird, schlecht definiert ist, da diese 
Vektoren fast abhangig sind. 

In der vorliegenden Arbeit wird nun ein Verfahren beschrieben, welches 
speziell auf schlecht konditionierte Systeme zugeschnitten ist. Man hat natiirlich 
zu beachten, daB bei vielen Fallen, welche numerisch sehr schlecht liegen, eben 
schon die Aufgabe nicht gut gestellt ist. Dennoch kann die Diskussion dieser 
Zusammenhange auch von theoretischem Interesse sein. 

Die vorgeschlagene Methode verlangt zu Beginn eine gewisse Transformation 
des Fehlergleichungssystems  (Jordan-Elimination) mit einem Rechenaufwand 
von der selben GréBenordnung wie beim Aufstellen der Normalgleichungen. 
AnschlieBend werden mit irgend einem iterativen Verfahren die transformierten 


* Bei der vorliegenden Arbeit handelt es sich um die leicht gekiirzte Fassung eines 
Manuskriptes, welches auf der Hauptbibliothek der ETH, Ziirich, eingesehen werden 
kann. 
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Normalgleichungen behandelt, ohne daB diese explizit gebildet werden miissen. 
Dabei gewinnt man folgende. Vorteile: 

1. Das transformierte Normalgleichungssystem kann theoretisch nicht beliebig 
schlecht konditioniert sein, gleichgiiltig wie schlecht auch das urspriingliche 
System war. Genauer: Es wird eine nur von » und m abhangige universelle 
obere Schranke fiir die Kondition des transformierten Systems angegeben werden. 

2. Bei der iterativen Behandlung der transformierten Normalgleichungen 
ergeben sich in jedem Schritt ohne wesentlichen Mehraufwand beidseitige Schran- 
ken fiir die zu minimalisierende GréBe (v, v). Diese Schranken werden nun aus 
dem oben angefiihrten Grunde, gerade bei schlechtkonditionierten Systemen, 
meistens schon nahe zusammenriicken, bevor die Iteration an den Unbekannten 
steht. Man wird den ProzeB dementsprechend friiher abbrechen kénnen, ’da 
offensichtlich ein Weiterrechnen gar nicht sinnvoll ware. 

Natiirlich werden auch bei unserer Methode die prinzipiellen numerischen 
Schwierigkeiten nicht weggezaubert. Es zeigt sich aber doch, daB in manchen 
Fallen noch brauchbare Resultate gewonnen werden kénnen, wo dies auf nor- 
malem Wege beim Rechnen mit der iiblichen Stellenzahl nicht mehr méglich ist. 
Dabei kann es vorkommen, daB wenigstens ein Teil der nachstehend beschriebenen 
Jordan-Transformation stabil verlauft, und die Verbesserungen (d.h. der Losungs- . 
punkt im n-dimensionalen Raum) gut herauskommen, nicht aber die eigentlichen 
Unbekannten der vermittelnden Ausgleichung (Punkt im m-dimensionalen Raum). 

Es sei hier gleich als Resultat einiger Versuche vorweggenommen, daB sich 
die Methode der konjugierten Gradienten fiir die iterative Behandlung der trans- 
formierten Gleichungen ganz besonders bewahrt hat. Die (v, v)-Schranken riicken 
im allgemeinen schon nach wesentlich weniger als m Schritten (fiir die exakte 
Lésung sind theoretisch m Schritte erforderlich) so nahe zusammen, daB der 
ProzeB abgebrochen werden kann. 


2. Die Transformation der Fehlergleichungen 


Es mége ein iiberbestimmtes lineares Gleichungssystem vorliegen, bestehend 
aus » Gleichungen in den m Unbekannten y,, ..., ¥,, ("> m), vektoriell geschrieben 


Cy—l=0. 
Von der rechteckigen Matrix C wollen wir ein fiir allemal voraussetzen, daB sie 


den Rang m habe. Die obigen Gleichungen lassen sich im allgemeinen nicht er- 
fiillen, sondern es werden auf der rechten Seite gewisse Residuen v, iibrigbleiben: 

Cy—l=v, (2.1) 
und die Ausgleichung nach kleinsten Quadraten besteht bekanntlich darin, die 
y; so zu bestimmen, daB (v, v) minimal wird. Die v; haben den Charakter von 
Verbesserungen, welche an den MeBwerten /; anzubringen sind. (2.1) nennt man 
die Fehlergleichungen. 

Zur geometrischen Interpretation im R” betrachten wir die m-dimensionale 
Ebene F’, welche von den m Spaltenvektoren von C aufgespannt wird. (Unter 
einer ,,Ebene“, welche parallel zu einem Unterraum U liegt, ist natiirlich eine 
Restklasse mod U zu verstehen.) Die Aufgabe der Ausgleichsrechnung ist es 
daiin, denjenigen Punkt x=Cy von F’ zu bestimmen, welcher den kleinsten 
Abstand |v| = |x—/| von einem gegebenen Punkt / auBerhalb F’ hat. 
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Fiir die algebraische Bestimmung der Unbekannten y; wird die Tatsache 
beniitzt, daB v senkrecht auf F’ stehen muB, also C'v=0 (die Transponierte 
einer Matrix A bezeichnen wir mit A‘), oder: 


C™Cy—CTl1=0 — (GauBsche Normalgleichungen). (2.2) 
F’ ist also der Bildbereich der regularen linearen Abbildung - 
x=Cy (2.3) 


des R™ in den R". Betrachten wir umgekehrt die Abbildung y=C7x von R" 
auf R”, so ist deren Kern das orthogonale Komplement zu F’ und der Kern F” von 


y=CTx—CTl (2.4) 
die (n —m)-dimensionale Parallelebene durch den Punkt/, Diese beiden total 
senkrechten Ebenen F’ und F’’, welche einzig den Lésungspunkt s der Aus- 
gleichungsaufgabe gemeinsam haben, spielen eine wichtige Rolle bei den Ab- 
schatzungen fiir (v, v) (s. Abschnitt 4). 

Es sollen nun in der Abbildung (2.3), welche ausgeschrieben 


m 
%=) 6,9, fir ¢=14,...,% (2.5) 
I 


lautet, die y, gegen m der Variablen x; ausgetauscht werden. Einen einzelnen 
solchen Austausch, z.B. von y, mit x,, nennen wir einen Jordan-Schritt (s. [5] 
oder [7])*. Dieser Schritt besteht darin, daB die p-te Gleichung (2.5) nach y, 
aufgelést und der erhaltene Ausdruck in.die iibrigen Gleichungen eingesetzt wird. 

Dabei entsteht aus der Matrix C eine neue Matrix C’, deren Elemente nach 
folgenden Rechenregeln bestimmt sind: 


1/Cy¢ fir +=), k=q 
Cin = Ci ql pg fiir 1 + p, k = q (2.6) 
— Copley, fir +=), k+@¢ 


(Cik — Cig “prlepg) fiir t+, k+q. 
Das Element c,,, welches am Kreuzungspunkt der #-ten Zeile und der g-ten 
Kolonne von C steht, heiBt Pivot des betreffenden Austauschschrittes und muB 
natiirlich +0 sein. ‘ 

Aus unserer Voraussetzung, wenach die Matrix C den Rang m haben soll- 
folgt unter Beniitzung des Steinitzschen Austauschsatzes, daB es méglich ist: 
alle y, als unabhangige Variable zu eliminieren. Dabei ist zunachst die Frage 
noch offen, gegen welche der x; ausgetauscht werden soll. Man hat lediglich 
die Pivots so zu wahlen, daB sie nicht verschwinden und in einer Zeile und 
Kolonne stehen, welche bis dahin noch an keinem Austausch beteiligt waren. 
Das heiBt, daB die Pivots zueinander in ,,Turmstellung“‘ (Schachspiel) stehen 
miissen. Ein verniinftiges Auswahlprinzip scheint dieses zu sein, daB unter allen 
noch zur Konkurrenz zugelassenen Elementen das absolut gréBte genommen 
wird, da durch das Pivot dividiert werden muB. Auf diese Frage wird in Ab- 
schnitt 3 noch naher eingetreten. 

Diese Jordan-Elimination steckt in irgendeiner Form in sehr vielen Prozessen 
der numerischen linearen Algebra, sei es bei der Auflésung von linearen Gleichungs- 
 * Literaturverzeichnis am Ende der Arbeit. 
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systemen nach dem GauBschen Algorithmus, bei der Matrizeninversion, oder 
im Simplex-Algorithmus bei der linearen Programmierung. 

In den folgenden Uberlegungen wollen wir zur Vereinfachung immer annehmen 
daB gerade die ersten m von den x; ausgetauscht werden, so daB als Pivots der 
Reihe nach ¢,;,..., Cy», auftreten. Dieser Fall wird natiirlich in Wirklichkeit 
selten vorliegen, jedoch ist es vorteilhaft, bei der praktischen Durchfiihrung durch 
entsprechende Vertauschungen von Zeilen und Kolonnen diese natiirliche An- 
ordnung herzustellen, da nachher mit der transformierten Matrix weitergerechnet 
wird. Man hat sich dabei lediglicu die Permutationen der Indizes zu merken 
um am SchluB die Komponenten der Lésungsvektoren identifizieren zu. kénnen. 

Unter dieser Voraussetzung sollen die ersten m Komponenten von x zu einem 
Vektor z zusammengefaBt werden, die restlichen zu einem Vektor w. Aus der 
Abbildung (2.3) wird dann, nach Ausfiihrung der m Jordan-Schritte (im folgenden 
kurz Jordan-Transformation genannt), die folgende: 


| 
= = Hf - z, ' (2.7) 
B 
{ 
Wir brauchen vor allem den unteren Teil mit der (n —m) xm-Matrix B. Man 
erhalt also die Punkte von F’, indem man die ersten m Komponenten, eben die 


z,, beliebig wahlt und die restlichen, namlich die w; mit Hilfe von (2.7) durch 
jene ausdriickt: 














w= Bz. (2.8) 


Nun iiben wir unsere Jordan-Transformation in genau derselben Weise auf 
die Abbildung (2.4) aus. Da aber deren Matrix gerade die transponierte von 
(2.3) ist (duale Abbildung), besteht auch zwischen den Jordan-transformierten 
ein sehr enger Zusammenhang: Infolge der Unsymmetrie in der Behandlung 
der Pivotkolonne und -zeile in (2.6) sind A und B durch ihre Transponierte bzw. 
Negativ-Transponierte zu ersetzen. Der Konstantenvektor —C7/ von (2.4) ist 
wohl in die Austauschschritte, nicht aber in die Pivotauswahl einzubeziehen. 
Den Vektor, der nach der Transformation an der Stelle von — C7/ steht, nennen 
wir —d. So entsteht die folgende Abbildung: 


| = AT |_pt —lal.[y (2.9) 


PB 


4 
Um einen Punkt aus F” zu erhalten, hat man y=O zu setzen, das heiBt aber 
nach (2.9), daB die letzten (nm) Komponenten, namlich die w;, frei gewahlt 
werden diirfen, und daB sich dann die restlichen m, die z,, aus dem rechten 
Teil von (2.9) 


























z=— Bw-—d (2.10) 
ergeben. 
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Der Lésungspunkt s der Ausgleichsaufgabe muB schlieBlich als Schnittpunkt 
von F’ und F” die Eigenschaft haben, daB die beiden Teilvektoren z und w 
gleichzeitig die Gleichungen (2.8) und (2.10) erfiillen. Durch Elimination eines 
der beiden erhalt man sofort ein Gleichungssystem fiir die Komponenten des 
anderen: 


z=—B™Bz—d (2.11) w=—BB'w—Bd (2.13) 
oder: oder: ' 
Nz+d=0 (2.42) Mw+Bd=0 (2.14) 
mit. mit 
N=E,,+ B'B M=E,_,,+BB* 





(E; ist die j-reihige Einheitsmatrix). 
Die Gleichungen fiir z aufstellen hei®t nun: die urspriingliche Fehlergleichungs- 


matrix C durch cAaihdaahe 
E 


m 





C,= 
B 











ersetzen. Die Unbekannten fallen dann eben mit dem oberen Teil z des Vektors x 
der MeBvariablen zusammen. Die andere Variante hingegen ist 4quivalent mit 
der Formulierung desselben Problems als solches der bedingten Ausgleichung. 
Die Transponierte der Matrix der Bedingungsgleichungen ist dann: 





BT 
C,= 





—E 


n—m 











und ihre Spalten sind orthogonal zu denen von C,. Der Vektor‘der Korrelaten 
fallt, bis auf eine konstante Verschiebung, mit —w zusammen. 

Bei dieser Betrachtungsweise kommt die in [4] angeténte Dualitat zwischen 
vermittelnder und bedingter Ausgleichung besonders deutlich zum Ausdruck. 
Wir werden uns allerdings im folgenden auf die vermittelnde Ausgleichung be- 
schranken, das hei®t nur das Gleichungssystem fiir z diskutieren, da doch in 
den meisten praktischen Fallen sehr viele tiberschiissige Messungen vorliegen 
(n> 2m) und die andere Variante nichts wesentlich neues liefert. Es ist iibrigens 
klar, daB die entsprechenden Transformationen auch gemacht werden kénnen, 
wenn das Problem urspriinglich als bedingtes formuliert ist. 

Die Form (2.11) des transformierten Normalgleichungssystems legt es nahe, 
zur Auflésung ein Iterationsverfahren zu wahlen. Dabei kommt weniger die 
primitive Iteration mit der Matrix — B? B in Frage, als vielmehr eine der be- 
kannten feineren Relaxationsmethoden. Im Abschnitt 5 wird ein solches Ver- 
fahren genau beschrieben. 

‘Des weiteren ist zu beachten, daB die sicher in irgendeiner Form auftretende 
Iteration zweckmaBigerweise in die beiden Schritte (2.8) und (2.10) aufgespalten 
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wird, damit das Matrizenprodukt B’ B nicht berechnet zu werden braucht. Das 
heiBt aber, daB in jedem Schritt des Rechenprozesses je ein Punkt aus F’ und 
aus F” auftritt. Diesen Umstand werden wir in Abschnitt 4 zur Gewinnung von 
beidseitigen Schranken fiir (v, v) ausniitzen. 


3. Die Kondition des transformierten Systems 

Es ist im allgemeinen nicht so einfach, Angaben iiber die Kondition einer 
Matrix zu machen, da vor allem eine positive untere Schranke fiir die Betrage 
der Eigenwerte nicht ohne weiteres angegeben werden kann. Diese Schwierig- 
keit fallt hier dahin, denn trivialerweise sind alle Eigenwerte von N=E+ B? B 
mindestens gleich 1. Fiir »<2m ist diese Schranke sicher auch das Minimum, 
da dann B? B immer singular ist. 

Eine obere: Schranke fiir die Eigenwerte ist bei Normalgleichungsmatrizen 
leicht anzugeben, da diese symmetrisch und positiv: definit sind. Wir werden 
sogar eine universelle Schranke finden,. welche nur von und m, nicht aber von 
der Matrix C abhangt (immer vorausgesetzt, daB diese den Rang m hat). 

Zunichst soll folgende wichtige Eigenschaft der Jordan-Transformation be- 
wiesen.werden, welche zwar nicht weiter beniitzt wird, aber doch von Interesse ist : 

Satz. Die Matrix B ist dem Unterraum F’, welcher durch die Spalten von C 
aufgespannt wird, eineindeutig zugeordnet. 

Wenn man zur Vereinfachung wieder voraussetzt, da8 die Pivots in natiir- 
licher Reihenfolge in der Diagonale des oberen Quadrates P von C stehen, kann 
die Jordan-Transformation folgendermaBen dargeste|It werden (s. (2.7)): 








P A=Pp" 








>) 
I 
Yv 
x 
I 


Q B=QP> 




















Das obere Quadrat A der Transformierten H wird erst wieder bei der Berech- 
nung von y gebraucht und soll vorlaufig auBer acht gelassen werden. 

Nun wird der Unterraum F’ genau dann festgehalten, wenn man C mit einer 
regularen (mxm)-Matrix R transformiert: C,=CR. Dann ist aber 


B,=Q, Pyo*=QR(PR)*=QPt=B. 


Umgekehrt folgt aus «BS 
0, Pp; -_ Q P. 
. A=QP FH, 
und mit 
R=PP'F 





C,=CR mit R=P“BP, 


womit die Behauptung bewiesen ist. 
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Wenn nun schon die Matrix B nur von der Ebene F’ abhangt, dann gilt dies 
vielmehr auch fiir die Eigenwerte von B? B. So liegt es nahe, dem Sachverhalt 
die folgende geometrische Deutung zu geben: 

Fiir ein x aus F’, das wir wieder aus den beiden Teilvektoren z und w zusammen- 
setzen, gilt, wie in Abschnitt 2 gezeigt, w= Bz. Damit ist 


(x, x) __ (w,w) _ (z, BT Bz) (z, Nz) 
ay ag ty ay o-1) 
Diese Gleichung sagt, daB der gréBte Eigenwert von WN gleich 1/c? ist, wobei 
c=|z|/|x| gleich dem Kosinus des gréBten Winkels ist, den ein Vektor x aus F’ 
mit seiner Projektion z auf die erste m-dimensionale Koordinatenebene bilden 
kann. 

Bei der Jordan-Transformation eine gute Pivotauswahl treffen heiBt somit: 
diejenige m-dimensionale Koordinatenebene suchen, welche mit F’ einen méglichst 
kleinen Winkel bildet. Und die Behauptung, daB die Eigenwerte von N beschrankt 
seien, bedeutet, daB F’ nicht gleichzeitig auf allen m-dimensionalen Koordinaten- 
ebenen ,,beinahe“ senkreckt stehen kann. 

Fir den Beweis der erwahnten Behauptung hat man die Betrage der Matrix- 
elemente in jedem Schritt der Jordan-Transformation abzuschatzen: 

Nach dem j-ten Schritt seien die Matrixelemente c!’}, mit c{ ==c;,, cf =;,. 
Man hat sich bei der Diskussion auf die Elemente von der (j+1)-ten Zeile an 
zu beschranken. 


Es soll nun durch Induktion nach 7 bewiesen werden, daB 


| <2-* far a 
= 4,...,f. 


Die Rechenvorschrift fiir einen Jordan-Schritt lautet: 
Das Element | _Max eral ist durch Zeilen- und Spaltenvertauschungen an 








(3.2) 


die Stelle (7+14, i +4) zu bringen. 
Dann bilde gemaB (2.6): 


(j7+1) _ (7) (7) 1 Beate of 
Ce — Pala 41 fir t=7+2,...,” 
. $=74+2,...,% 
oth) = cf) + fy k roe fiir ] ; r 
Ra 4, ...5459 +2, 20, 


Da nun wegen der Pivotauswahl 


[cPA2|s1 fir s=7+2,...," 


folgt aus Induktionsvoraussetzung und Rechenvorschrift sofort 
+=7+2,...,” 


(j+1) i—k j—k _. 4j+1-—k $3 
c\ $27°° +27" =7 fiir ; 
len | ned 


Die Verankerung fiir 7=0 ist trivial. 

Es gilt somit insbesondere | };,|<2"~*. 

Eine obere Schranke fiir die Eigenwerte 4 der positiv definiten Matrix B? B 
wird durch deren Spur gegeben. Diese Abschatzung ist zwar im allgemeinen 
recht grob. Sie fiihrt jedoch auf einfach gebaute Ausdriicke, welche fiir unsere 
theoretischen Uberlegungen gut geeignet sind. Zudem erfiillt sie die bei einer 
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der in Abschnitt 5 angeténten numerischen Methoden unerlaBliche Bedingung, 
daB die Elemente von B’B nicht berechnet werden miissen. 


So erhadlt man: 
As Sp(B? B) = p b?, 


Diese GréBe wird schlieBlich nach der prea Ungleichung eingeschrankt: 
2 bi =X (m — m) - 22") — $(n — m) (4"— 1). (3-3) 
i,k 


Damit haben wir Po iain 

Satz. Der grépte Eigenwert von N=E+ B" B, und damit auch die Kondition 
dieser Matrix ist héchstens gleich 

1+ 3(n — m)(4"—1) + 3(n — m) 4”. 

Man beachte, daB der angegebene Ausdruck nur mit der Anzahl der Unbe- 
kannten, nicht aber mit der Anzahl der Fehlergleichungen stark anwachst. 

Diese Schranke ist iibrigens in Bezug auf alle (n x m)-Fehlergleichungsmatrizen 
C wirklich ein Maximum, das heiBt sie wird fiir gewisse leicht zu konstruierende 
Matrizen angenommen. Allerdings ware in diesen Fallen durch eine andere 
Pivotauswahl eine bedeutend giinstigere Kondition zu erreichen. Man kann 
somit sicher nicht behaupten, daB die Auswahl nach dem absolut gréBten Element 
beziiglich der Kondition von B’B immer die beste sei, sondern nur daB sie 
sicher nicht beliebig schlecht, und im allgemeinen wohl auch verniinftig ist. 

Zur Illustration sei auf das in Abschnitt 6.3 naher ausgefiihrte Beispiel einer 
Matrix C hingewiesen, welche einen Parameter ¢ enthalt, derart daB die Spalten- 
vektoren von C fiir ¢—0 zusammenfallen. Die schlechte Kondition von C ist 
also ,,echt“, das heiBt sie 14Bt sich nicht durch Normierung der Spalten beheben. 
Dennoch erhdlt man fiir ein beliebig kleines ¢> 0 durch die Jordan-Transformation 
eine Matrix B mit guter Kondition: 

m 


(Kondition von C7 C) ~¥ 
(Kondition von N = E + B’ B) ym. 


4. Schranken fiir die Quadratsumme der Verbesserungen 

Wie in Abschnitt 1 auseinandergesetzt wurde, hat man bei einer iterativen 
Behandlung der Ausgleichungsaufgabe ein Interesse daran, wahrend der Rechnung 
beidseitige Schranken fiir (v, v) zu kennen, da ein nahes Zusammenriicken der- 
selben bedeutet, daB der ProzeB abgebrochen werden soll. 

Eine obere Schranke fiir (v, v) wird trivialerweise von jedem Punkt x’ aus F’ 
geliefert, da ja der Lésungspunkt diese GréBe zu einem Minimum macht. Das 
Abstandsquadrat eines Punktes x’’ aus F” von / gibt zwar im allgemeinen keine 
untere Schranke; eine solche kann jedoch bei gleichzeitiger Kenntnis eines x’ 
und eines x’’ in sehr einfacher Weise berechnet werden. 

Wir wollen fiir das folgende voraussetzen, daB ein Rechenverfahren: beniitzt 
werde, welches in jedem Schritt je ein x’ und ein x’’ liefert. Nach den Aus- 
fiihrungen von Abschnitt 2 ergeben sich diese Punkte mit unseren transformierten 
Normalgleichungen in zwangloser Weise, und zwar gleichgiiltig, ob das System 
fiir z oder dasjenige fiir w aufgelést werde. 
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Es eriibrigt sich somit, von einem Naherungspunkt der einen Ebene den in 
[4] beschriebenen, ziemlich kiinstlichen Ubergang zu einem Punkt der anderen 
Ebene zu machen. 

Zur Gewinnung einer unteren (v, v)-Schranke fallen wir von x’ aus das Lot 
auf die durch / und x” gehende Gerade. Mit den Bezeichnungen v’= x’ —1, 
v’’ = x'’ —] erhalt man fiir den FuBpunkt w” des Lotes: 


u” =1+ (v’, v”’) v”’. (4.1) 





Nun ist aber wegen 


(x’ — uw”, uw’ —1l) =0 
und 
(s — x’, uw’ —1)=0 (s = Lésungspunkt) 
auch 
(s— uv”, wu’ —l) =0, 


das heiBt u’’ ist auch die Projektion von s auf dieselbe Gerade. Somit ist 
(u’’—1, u’’—1) eine untere Schranke fiir (v, v), und zwar die beste, welche auf 
Grund von x” gewonnen werden kann; ganz unabhangig von x’. 


Somit haben wir fiir (v, v) folgende Ungleichungen: 





(v’, v’’)2 p J 

(v”, v”) - (v, v) S (v »v ). (4.2) 
Bei diesen Abschatzungen handelt es sich um einen Spezialfall von solchen, 
welche die Hyperkreismethode liefert, wenn in jeder der Ebenen F’ und F” 
je ein System von Vektoren gegeben ist. Dieser Fragenkomplex ist in [8] mit 
vielen Beispielen beschrieben; fiir die Anwendung auf die Ausgleichsrechnung 
s. [4]. 


5. Iterative Behandlung der transformierten Gleichungen 


Wir beschranken uns im Rahmen dieser Arbeit auf die Diskussion eines 
speziellen Relaxationsverfahrens, welches sich in einigen Versuchen gut bewahrt 
hat, namlich der Methode der konjugierten Gradienten (cg-Verfahren). Es werden 
die expliziten Rechenvorschriften fiir unseren Fall der transformierten Normal- 
Bleichungen angegeben werden. 

Der Algorithmus wurde in der urspriinglichen Form von [3] verwendet; in 
jener Arbeit findet man auch eine ausfiihrliche Theorie. Fiir Berichte iiber 
numerische Experimente, auch in Kombination mit anderen Methoden, s. [1]; 
fiir die Anwendung auf die Ausgleichsrechnung s. [4]. 

Einige Versuche wurden auch mit dem Verfahren von FLANDERS und SHORT- 
LEY [2] durchgefiihrt, einem Gradientenverfahren, welches als Residuenpolynome 
die Tschebyscheffschen Polynome verwendet (s. [1]). Es lag deshalb nahe, diese 
Methode anzuwenden, weil sie Schranken fiir die Eigenwerte der Koeffizienten- 
matrix bendétigt; und diese sind im vorliegenden Falle leicht anzugeben. Das 
cg-Verfahren hat sich jedoch als iiberlegen erwiesen (s. erste FuBnote). 

Es sei allgemein der unbekannte Vektor z aus dem Gleichungssystem A z=k 
zu bestimmen, wo A fiir eine symmetrische positiv definite Matrix steht. Wenn 
z; (durch den Index werden in diesem Zusammenhang nicht Komponenten, 
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sondern verschiedene Vektoren unterschieden) die Naherung des j-ten Iterations- 


schrittes ist, dann nennen wir 


den zugehérigen Residuenvektor. 

Das cg-Verfahren gehdort zu einer bestimmten Klasse von Gradientenverfahren, 
bei denen die Korrektur 4z; des Unbekanntenvektors einer dreigliedrigen Re- 
kursion ‘ 

Aa 0) + My BG a) (5.2) 
gehorcht. Durch die Wahl der Skalare x;, 2; wird das spezielle Verfahren fest- 
gelegt (s. [1]). 

Der RechenprozeB soll nun auf unser spezielles System’ mit A= N=E+ B’ B, 
k= —d angewendet und so umgeschrieben werden, da8 A nicht explizit gebildet 
wird. Dafiir kommen in jedem Schritt zwei Multiplikationen der Rechtecks- 
matrix B, bzw. von B’ mit einem Vektor vor.- Diese beiden Multiplikationen 
wiirden auch in einem primitiveren Iterationsverfahren stehen bleiben, so daB 
der Mehraufwand des cg-Verfahrens bescheiden ist. 

Die Formeln fiir den allgemeinen Fall werden hier nicht reproduziert; wir 
legen fiir das folgende die Bezeichnungen von [4] zugrunde. 


Wenn man den Vektor g= B# einfiihrt, wird 
(p, A p) = (6, (E + BY B) p) = (6,0) + (4.9). 


Um in jedem Schritt die fiir die (v, v)-Schranken notwendigen Punkte x’ 
und x” zu erhalten, welche in den Ebenen F’ und F”’ liegen, berechnet man, 
ausgehend von der Naherung z des j-ten Schrittes (der Index? ist im folgenden 


weggelassen) : — bmn’ Bw 


Allerdings kann w rekursiv berechnet werden, wegen Aw=BAz=A-q. 


Dann besteht x’ aus den beiden Teilvektoren z und w, x” aus 2 und w, 
und der Residuenvektor ergibt sich in einfacher Weise aus 


on or re pa fh oe 


ZweckmaBigerweise zerlegt man auch v = x’ —/ und / entsprechend x je in die 
beiden Teilvektoren v, und v,, bzw. /, und J. 

Fiir den Start eines Relaxationsverfahrens wird man im allgemeinen z=0 
setzen miissen, wenn iiber die Lésung weiter nichts bekannt ist. Im vorliegenden 
Falle kann man sich jedoch einen Teil der in die Jordan-Transformation ge- 
steckten Arbeit zunutze machen, da die Unbekannten (Komponenten von 2) 
nach der Transformation gerade m von den MeBvariablen sind, und deshalb 
die entsprechenden Komponenten des MeBvektors,/ als Startwerte beniitzen. Das 
heiBt geometrisch, daB man, wenn die Fehlergleichungen als Gleichungen von 
Hyperebenen im R™ aufgefaBt werden, durch geeignete Pivotauswahl einen még- 
lichst gut definierten Schnittpunkt von m solchen Hyperebenen bestimmt und 
diesen, statt des Nullpunktes, als Ausgangspunkt fiir die Iteration nimmt. 

Damit kann nun die Rechenvorschrift fiir das cg-Verfahren formuliert werden: 

1. Bilde —C7/ und fiige diesen Vektor als zusatzliche Zeile zur Matrix C 
der Fehlergleichungen. 
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2. Jordan-Transformation (s. Abschnitt 2) 

















F A 

C > 
B 
—ICct a? 




















Die auf Grund der Pivotauswahl durchgefiihrten Zeilen- und Spaltenvertau- 
schungen hat man sich-zu merken. Die letzte Zeile darf nicht Pivotzeile werden. 
Die Zeilenvertauschungen sind auch auf die entsprechenden Komponenten von 
l auszutiben (wegen der Berechnung von v= x —/). 


3. RelaxationsprozeB. (Wenn die Formeln in der richtigen Reihenfolge ge- 
schrieben werden, eriibrigt sich deren Belastung mit dem Index] des Zyklus. 
Bei der Durchfithrung der Rechnung auf einem Automaten werden ja auch tat- 
sachlich die entsprechenden GréBen immer wieder am selben Ort gespeichert. 
Das Zeichen,,: =‘ soll andeuten, daB es sich nicht um Gleichungen im iiblichen 
Sinne, sondern um Rechenvorgange handelt. Genauer: der links vom Zeichen 
stehenden Variablen ist der momentane Wert des Ausdrucks der rechten Seite 
zuzuweisen. Die Zuweisung des Wertes ,, co‘‘ ist im Sinne der Gleitkommamaschi- 
nen aufzufassen). 


Vorbereitung : 


o:=1,; s:=0; w:=0; 
Q:=00;- 9’':= 00; Tis ©. 
Beginn an der Stelle * des allgemeinen Rechenzyhlus: 


—2z; o:=(r,7); 


A:=o/(o+ 1); 
z:=z+A-p; 
w:=wt+A-q; 
2:= — B’w—d; 
v,:=2—1,; @, : = (v,, V,); 
Vy i= W—I1,;  We:=(Vy, Vy); | ( v)-Schranken nach (4.2) 54S (v, v) Sng. Dic- 
ser Teil der Rechnung wird fiir den Relaxations- 


~ 


prozeB nicht benijtzt und braucht daher nicht 
unbedingt in jedem Schritt durchgefiihrt zu 
n= (02 + 04)?/ (We sg (s) ) werden. 

No? = On + Og 
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4. Um die Komponenten des Lésungsvektors x in der richtigen Reihenfolge 
zu bekommen, sind die bei der Jordan-Transformation ausgefiihrten Zeilenver- 
tauschungen an den Komponenten des aus z und w zusammengesetzten Vektors 
wieder riickgangig zu machen. 

5. Falls schlieBlich die eigentlichen Unbekannten der vermittelnden Aus- 
gleichung verlangt werden, berechne man y:=Az, worauf die Komponenten 
von y gemaB den Spaltenvertauschungen der Jordan-Transformation wieder in 
die urspriingliche Ordnung gebracht werden miissen. 

Bemerkung zu den (v, v)-Schranken: Die oberen Schranken 7, = (v’, v’) nehmen 
beim cg-Verfahren monoton ab (s. [4]), wogegen die unteren Schranken 7, nicht 
notwendigerweise monoton wachsen. Wiirde man hingegen die Gleichung (2.14) 
fiir w lésen, das heiBt bedingte Ausgleichung treiben, dann hatte man nach [4] 
Monotonie bei 7, und nicht bei 7,, und die unteren Schranken 7, wiirden schon 
durch die cg-Naherungspunkte x” selbst geliefert, so daB der, allerdings beschei- 
dene Rechenaufwand fiir die Auswertung der linken Seite von (4.2) entfiele. 

Der Vollstandigkeit halber seien noch folgende Identitaten angefiihrt, welche 
beim cg-Verfahren gelten: 


Die Residuenvektoren von verschiedenen Schritten sind orthogonal: 
(7;,%) =O fir 7+k. (5.3) 


Die Gewichtsvektoren von verschiedenen Schritten sind konjugiert beziiglich 
der Matrix N des Gleichungssystems: 


(p;, N px) = (P;, Be) + (9;-%) =O fir 7 +k. (5.4) 

Ferner gelten auf Grund der in [4] angegebene Beziehungen fiir jeden Rechen- 
schritt: 

(¥,,2) + (Up, w) =0 (5.5) 
und 
(/,,2) + (lw» 9) = @- (5.6) 
Der Wert solcher Identitaéten als Rechenproben ist immerhin fragwiirdig, da nicht 
leicht entschieden werden kann, wie weit Unstimmigkeiten von Rundungsfehlern 
herriihren. 

Um schlieBlich den Rechenaufwand bei den verschiedenen Methoden grob 
abschatzen zu kénnen, wird noch angegeben, wie sich die Anzahl Multiplikationen 
asymptotisch verhalt: 

a) Bildung der Normalgleichungen: » m?/2; Auflésung der Normalgleichungen 
durch Elimination: m%/6. (Bei beiden Ausniitzung der Symmetrie.) 


b) Jordan-Transformation:  m?; Ein Relaxationsschritt: 2 m. 


6. Beispiele 
6.1. Allgemeine Bemerkungen zur Polynom-A pproximation 

Die Aufgabe, bei gegebenen m Stiitzwerten (n>m) das Polynom (m— 1)-ten 
Grades bester Approximation im Sinne der kleinsten Quadrate zu bestimmen, 
kann als Problem der vermittelnden Ausgleichung formuliert werden. Die Matrix 
C der Fehlergleichungen enthalt in ihrer k-ten Spalte die (k —1)-ten Potenzen 
der Stiitzabszissen und fiihrt bekanntlich auf sehr schlecht konditionierte Normal- 

Numer. Math. Bd. 3 a7 
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gleichungen. Man hat deshalb andere Methoden entwickelt, welche sich besser 
fiir die numerische Rechnung eignen (z. B. Bildung der Orthogonalpolynome unter 
Beniitzung der Rekursionsformel). 

Mit dem nachstehend beschriebenen Versuch sollte immerhin festgestellt 
werden, ob nicht auch in Fallen, wo die Auflésung der gewoéhnlichen Normal- 
gleichungen versagt, eventuell mit Hilfe der vorgingigen Jordan-Transformation 
wenigstens die Berechnung der ausgeglichenen Polynomwerte zu retten sei. Das 
Resultat war durchaus positiv. Hingegen wird in vielen Fallen die Bestimmung 
der Polynomkoeffizienten auch mit unserer Methode hoffnungslos sein. 

Man kann iibrigens im Falle der Polynomausgleichung der Methode noch 
eine sehr einfache Deutung geben: Durch.die Pivotauswahl werden m Stiitzstellen 
von allen  ausgezeichnet. Bei der Bestimmung eines Punktes x’ aus F’ gibt 
man an den m ausgezeichneten Stellen die Polynomwerte, namlich die Kompo- 
nenten von z vor, und erhalt mit w= Bz die Werte an den iibrigen Stellen. Die 
Spalten der Matrix C, (s. Abschnitt 2), welche ja Linearkombinationen der 
Spalten von C sind, enthalten also gerade die Werte der Grundpolynome fiir 
Lagrangesche Interpolation beziiglich der ausgezeichneten Stiitzstellen. Und 
wenn wir die Iteration dann mit z,=/, beginnen, so heiBt dies, daB als Aus- 
gangsnaherung nicht etwa das identisch verschwindende Polynom, sondern das 
Interpolationspolynom genommen wird, welches an den ausgezeichneten Stiitz- 
stellen die zu approximierenden Werte exakt annimt. Nur fiihren wir eben nicht 
die Interpolation aus, sondern iiben auf die Fehlergleichungsmatrix die Jordan- 
Transformation aus. 

Wenn man nun aus einer groBen Anzahl von Stiitzstellen deren m fiir diese 
Interpolation auswahlen miiBte, wiirde man sie wohl aus Griinden der Stabilitat 
méglichst wie die Extremalstellen des Tschebyscheff-Polynoms (m — 1)-ten Grades 
anordnen. Die angestellten Uberlegungen erfahren somit nochmals eine gewisse 
Rechtfertigung dadurch, daB bei dem durchgerechneten Fall die Pivotauswahl 
nach dem absolut gréBten Element von selbst auf eine derartige Stiitzstellen- 
verteilung fiihrt. 

Es sei in diesem Zusammenhang auch auf [6] verwiesen, wo vor allem im 
4. Abschnitt (Theorie der S-Funktionen) das Problem der optimalen Abszissen 
von einer anderen Stelle her beleuchtet wird. 


6.2. Polynom-Beispiel 

Das folgende Beispiel wurde auf einer 11stelligen dezimalen Gleitkomma- 
maschine (ERMETH) durchgerechnet : 

An den Stellen §=0(0,05)1 gegebene Stiitzwerte (Komponenten von /) sind 
durch ein Polynom 9. Grades zu approximieren (Komponenten von 2), also 
n=21, m=10. 

Zuerst wurden die gewéhnlichen Normalgleichungen gebildet und diese durch 
Elimination aufgelést. Durch Einsetzen der Lésungen y,; (nun wieder Kompo- 
nenten) in die Fehlergleichungen ergaben sich fiir die ausgeglichenen x, total 
unbrauchbare Werte, bei welchen zum Teil sogar das Vorzeichen falsch war. 
Der damit errechnete Wert von (v, v) war 10mal zu groB. 

Andererseits lieferte die Jordan-Transformation mit anschlieBendem cg-Ver- 
fahren ganz befriedigende Resultate. 
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In den ersten cg-Schritten ergaben sich folgende (v, v)-Schranken: 














Schritt "s " 

Start 0,30230 0,07420 
1 0,13051 0,09288 
2 0,10758 0,10735 
3 0,10749 0,10748 
4 0,10748 0,10748 


Die 6. Stelle von », und 7, war nicht mehr korrekt. Auf Grund der obigen 
Tabelle wiirde man in einem praktischen Fall sicher nach dem 2. oder 3. Schritt 
aufh6ren. 

Die x; wiesen im 8. Schritt noch absolute Fehler von 5 - 10~® auf. Im selben 
Schritt wurden ferner nach y= Az die Polynomkoeffizienten y; berechnet, und 
daraus wiederum x=C yy. Diese x-Werte hatten dann Fehler von § - 10°. 


6.3. Theoretisches Beispiel mit beliebig schlechter Kondition 


Es soll hier kurz auf das Beispiel eingegangen werden , welches am SchluB 
von Abschnitt 3 angedeutet wurde. 

Um nochmals an die geometrische Interpretation der Ausgleichsaufgabe anzu- 
kniipfen: Der Vektor / soll so gut wie méglich durch eine Linearkombination 
der Spaltenvektoren von C, d.h. also durch einen Vektor C y aus dem Teilraum F’ 
angendhert werden. Die schlimmste Situation fiir die numerische Lésung liegt 
nun wohl dann vor, wenn diese Spaltenvektoren beinahe zusammenfallen, whd 
die Projektion von / auf F’ ungefahr senkrecht auf ihnen steht. 


Ein solcher Fall ergibt sich (z.B. bei m=5, »=6) mit den folgenden Daten: 




















i. 43 84 € 
E 0 
bis E 0 a — 5 
E 5 
- A —5§ 
4 é_| i 
Die Koeffizienten der Normalgleichungen waren: 
- 47 
1+e 1 ia ll 
‘. ‘ 
hat Fe. ; |; Chime] 6 
: ee anvil 
1 ee 1 1+? 
, ay 
Die Eigenwerte von C’C sind 4,=5 + €?, A= --- =A,;=€?; die Kondition somit 


~ ae Falls man « geniigend klein wahlt, (z.B. e=10~, bei 1istelligen Man- 
€ 


tissen), wird C’C sogar numerisch exakt singular. 


Hingegen fiihrt die Jordan-Transformation auf die (einzeilige) Matrix 
B=[e—1 —1 —1 —1]. 
17* 
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Die Eigenwerte von N=E-+ B’ B sind A,=5+ 2, A,=--- =A,;=1; die Kondition 
somit 5. 
Ein cg-Schritt, oder natiirlich auch direkte Auflésung ergeben die x-Lésung 








0 - kins 
‘ 1 
4 —4 
$= - und die eigentlichen Unbekannten y = A x = . . 6 
" —4 
1 
ee ek 








Bei der Jordan-Transformation passiert in der Rechnung fiir B keine Stellen- 
ausléschung. Das gilt jedoch nicht fiir A und d. Die Tatsache, daB hier mit 
runden Zahlen gerechnet wird und so alle Resultate doch exakt herauskommen, 
ist deshalb nicht sehr interessant. 

Um eine realistischere Lage zu schaffen, wurde das theoretisch dquivalente 
Problem mit (im x-Raum) gedrehten Vektoren, welche jetzt allgemein im Ko- 
ordinatensystem lagen, durchgerechnet. C und / wurden zuvor noch mit Nullen 
derart erginzt, daB die Dimensionen n=10, m=5 entstanden. Erwartungs- 
gemaB wurde die Situation infolge der nun auftretenden Rundungen gegeniiber 
dem vorherigen Spezialfall etwas verwischt. 

Das Resultat war dennoch eindeutig: Der normale Weg iiber C’C lieferte 
véllig unbrauchbare Werte, wogegen mit Jordan-Transformation und 5 cg- 
Schritten Resultate mit 4 bis § korrekten Stellen herauskamen, und zwar fiir 
x und y. 
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IFIP-KongreB 1962 
Aufruf zur Anmeldung von Vortragen 


Die IFIPS (International Federation of Information Processing Societies) wird 
vom 27. August bis zum 1. September 1962 in Miinchen einen KongreB abhalten. 

Gegenstand des Kongresses werden alle Gesichtspunkte der Informationsverar- 
beitung und der digitalen Rechenanlagen sein einschlieBlich folgender Teilgebiete: 

1. Informationsverarbeitung in der Wirtschaft, z.B. Datenverarbeitung in Handel, 
Industrie und Verwaltung. 

2. Informationsverarbeitung in der Wissenschaft, z.B. numerische Mathematik; 
Rechenverfahren der angewandten Mathematik, Statistik und Technik; Daten- 
reduktion; Probleme der Unternehmensforschung. 

3. Zeitechte Informationsverarbeitung, z.B. Reservierungssysteme; Regelung durch 
Rechenanlagen; Verkehrsregelung; Analog-Digital-Konvertierung. 

4. Informationsspeicherung und -wiederauffindung, z.B. Speichervorrichtungen ; 
Bibliotheks-Kataloge. 

5. Sprachiibersetzung und: Sprachanalyse. 

6. Digitale Nachrichteniibermittlung, z.B. Verschliisselung; Entschliisselung; fehler- 
entdeckende und fehlerkorrigierende Codes fiir digitale Dateniibertragung. 

7. Kiinstliche Wahrnehmung und Intelligenz, z.B. Erkennen von Formen; biologi- 
sche Modelle; lernende Maschinen; Automatentheorie. 

8. Neuere Fortschritte bei Rechenanlagen, z. B. logischer Entwurf; logische Elemente; 
Speichervorrichtungen; iiberschnelle Rechenmaschinen; Programmierungsmethoden ; 
ALGOL. 

9. Ausbildung, z.B. Auswahl und Schulung von Rechenmaschinen-Spezialisten ; 
Einfiihrung von Nicht-Spezialisten in den Gebrauch von Rechenmaschinen; Infor- 
mationsverarbeitung im Hochschullehrplan. 

10. Verschiedenes, z.B. die Ausbreitung des Gebiets der Informationsverarbeitung. 

In jeder Kategorie sollen, soweit méglich, Anwendung digitaler Rechenanlagen, 
Programmierung, Systementwurf, logischer Entwurf, Ausriistung und Einzelteile be- 
handelt werden. 

Vortragsanmeldungen, begleitet von einer Zusammenfassung in englischer Sprache 
im Umfang von 500 bis 1000 Worten, sollen bis 


15. September 1961 


an die zustandigen IFTPS-Mitgliedgesellschaften bzw. deren Vertreter im internatio- 
nalen Programm-Komitee der IFIPS (fiir Deutschland Obmann: Prof. Dr. F. L. 
BavuER, Institut fiir Angewandte Mathematik der Johannes Gutenberg-Universitat, 
Mainz, Jakob-Welder-Weg 7; stellvertretender Obmann: Dr. H. BILLING, Max Planck- 
Institut fiir Physik und Astrophysik, Institut fiir Astrophysik, Abt. Numerische 
Rechenmaschinen, Miinchen 23, Aumeisterstr.) eingereicht werden. 

Die Vortragsanmeldungen werden auf Grund der Zisammenfassungen vom inter- 
nationalen Programm-Komitee der IFIPS gepriift werden. Die Autoren der ange- 
nommenen Zusammenfassungen werden bis zum Marz 1962 eine Aufforderung erhalten, 
ihre vollstandigen Manuskripte (in Franzésisch oder Englisch) dem Programm- 
Komitee zur endgiiltigen Priifung vorzulegen. 

Zusatzlich zu den ausgewadhlten Vortragen werden Vortrage auf Einladung, 
Symposien und vorbereitete Diskussionen stattfinden. Apregungen hierfiir mégen 
ebenfalls an den DARA-ProgrammausschuB gerichtet werden. 








IFIP Congress 1962 
Call for papers 


The International Federation of Information Processing Societies (IFIPS) will 
hold a Congress in Munich, Germany, from 27. August to 1. September, 1962. 

The Congress will cover all aspects of Information Processing and Digital Com- 
puters including the following: 

1. Business Information Processing, e.g. data processing in commerce, industry, 
and administration. 

2. Scientific Information Processing, e.g. numerical analysis; calculations in applied 
mathematics, statistics, and engineering; data reduction; problems in operations 
research. 

3. Real Time Information Processing, e.g. reservation systems; computer control; 
traffic control; analog-digital conversion. 

4. Storage and Retrieval of Information, e.g. memory devices; library catalogues. 

5. Language Translation and Linguistic Analysis. 

6. Digital Communication, e.g. encoding; decoding; error detecting and error 
correcting codes for digital data transmission. 

7. Artificial Perception and Intelligence, e.g. pattern recognition; biological models; 
machine learning; automata theory. 

8. Advanced Computer Techniques, e.g. logical design; logical elements; storage 
devices; ultra high-speed computers; program techniques; ALGOL. 

9. Education, e.g. selection and training of computer specialists; training of non- 
specialists in the use of computers; information processing as a University subject. 

10. Miscellaneous subjects, e.g. growth of the information processing field. 

In each category it is planned to cover, where appropriate, the applications of 
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Proposal for titles and subjects for symposia and panel discussions 


. Mathematical Programming (Dynamic-, Linear-Programming) 
. Linear Algebra 

. Automatic Programming 

. Translation of Languages 

. Linguistic Analysis 

. Switching Theory 

. Inexpensive Computers 

. Ultra High Speed Computers 

. File Memories 

. Fast Memories 

. Special Codes 

. Simulation 

. Character Recognitions 

. Self-repairing Computers 

. Business Games 

. Game Theory 

. Production Control 

. Integrated Data Processing in Business 

. Training in the Computer Field 

. Numerical Methods and Automatic Coding 
. Is ALGOL only an automatic coding language without sufficient qualities for 


advanced coding ? 

To what extent should the use of computers be part of the education and research 
on a University level ? 

Practical application of priority programming in computer systems 

How close should the hardware follow the automatic programming languages ? 
Should Business Data Processing be real time control ? 

Can Electronic Data Processing be measured economically ? 

Which criteria are used in the selection of Data Processing Equipment ? 

Who ought to design the future computers and who does it ? 

Practical experience of time sharing 

Neuro-physiological aspects of man and machine 
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Absolute norms and characteristic roots 
By 
F. L. BAUER and A. S._ HOUSEHOLDER 


1. 

An absolute vector norm [3] is one whose value for an arbitrary vector x 
is unchanged when each element of x is replaced by its absolute value. Such 
norms are characterized by the property that the associated matrix bounds 
(the least upper bound and the greatest lower bound), when applied to a diagonal 
matrix 


(1) D = diag (6,,..., 6,), 
satisfy 
(2) lub(D) = max|6;|, — glb(D) = min | 6,|. 


Note that glb(A) =1/lub(A~) if A exists and is zero otherwise. These relations 

will here be applied to the diagonal transform A of a normalizable matrix A: 

(3) _ A=PAP+,° A=diag(A,,...,A,), 

that is, of any matrix A that possesses such a transform. 

From the multiplicative inequalities for the bounds, 
(4) lub(A B) S lub(A) lub(B), 
glb(A B) = glb(A) glb(B), 

it follows that 
lub(A) S lub(P) lub(P~*) max |,|, 
glb(A) = glb(P) glb(P*) min | A,|. 


But 
lub (P) = 1/glb(P). 
Hence, if cond(P) is defined 


(5) cond (P) = lub(P) lub(P*), 
then the above inequalities have the form 

(6) max | A;| > lub(A)/cond(P), 
(7) min | A,| < glb(A) cond (P). 


The matrix P satisfyir ; (3) is not uniquely defined, but admits, in particular, 
an arbitrary scaling by columns, and, in general, cond(P) will vary with this 
scaling. But (6) and (7) hold-for any P satisfying (3). Hence if 
(8) y(A) = min cond(P), 


where the minimum is taken with respect to all matrices P satisfying (3), then 
(6) and (7) continue to hold when »(A) replaces cond (P). 
Numer. Math. Bd. 3 18 
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Evidently v(A)=1. If »(A)=1, then for some P, glb(.?)=lub(P), and there- 
fore ||P x||==||x|| for all x, which is to say that P is a norm-invariant transformation. 
In this case the matrix A may be called normal with respect to the norm being 
used. If A is normal with respect to the euclidean norm, then itis normal in 
the ordinary sense. 








2. 7 | 

Some of the inclusion theorems discussed in a recent paper [2] in terms 

of euclidean norms hold also for any absolute norm. Thus (3) implies that | 
f(A) = Pf(A) P>, 


where /(A) is any polynomial or rational function in A. Hence in (6) and (7), 
A; and A can be replaced by /(A,;) and f(A), and the inclusion theorems are ob- | 
tained when one estimates the bounds of f(A) by means of the. generalized 


Rayleigh quotient 
(A) =|]. 
When / (A) =«(A)/B (A), where « and B are polynomials, it is natural to set x=8(A)y, 
and to use 
lj (A) y/IB (A) y| | 


as the Rayleigh quotient. But since x is arbitrary, so is y, and this leads to the 

General Inclusion Theorem. Let ||x|| denote an absolute norm of x, and let 
the characteristic roots of A be A;. Let «(A) and B(A) be arbitrary polynomials, 
and x an arbitrary nonnull vector. Then 


max | a (4,)/B(A;)| = »*(A) lla (A) xB (A) 2], 
min | « (4,)/B (4;)| S»(A) lla (A) »|/B (A) 2]. 


These two inequalities are, of course, entirely equivalent; either defines a 
closed but not necessarily connected point set in the complex plane that contains . 
at least one root of A. When A is normal with respect to the given norm, the 
two sets have in common only their common boundary. Otherwise they overlap. | 
Some of the more detailed statements, however, that can be made in terms 
of euclidean norms, no longer hold for other absolute norms, or hold only in 
a much weaker form. The euclidean norm is characterized by the fact that a 
pair of orthogonal vectors x and y satisfies the relation 


le+yP=|eP + lyP 
which is used in deriving Theorem II in [2]. 


Sy Mal cai ls fehdew nen 
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3. | 

The classical exclusion theorems, as well as some others, have also been 
obtained by the use of norms [4], and the rest of this note will be concerned 
with theorems of this type. The theorem to be stated first has the appearance 

of a perturbation theorem, giving information about the roots of A+B, when 
those of A are known, along with somewhat less information about B, the matrix 
of perturbations. However, it is not necessary to consider either A or B to be 
in any sense small, and the theorem can be regarded as generalizing a theorem 
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due to WIELANDT concerning the roots of a sum of normal matrices [5]. WIELANDT’S 
sharpening of BENDIXson’s theorem will then be obtained as a direct consequence 
of this. 

The proof of the theorem in question will be made to depend upon a rather 
obvious 


Comparison Lemma. Given any two matrices R and S, if there exists a non- 
null vector x such that 


(9) Rowwiie. 

then 

(10) glb(R) <lub(S), 
lub(R) = glb(S). 


This is an immediate consequence of the properties of bounds. 

Now let A be normalizable, 
(14) A=P,A, P;', 
let B be any matrix, let A be any root of A+ B, and let y be a vector belonging 
to A: 


(A+ B)y=Ay. 
Then 
(Ay +P? BP,) yy = AP;Yy, 
or ' 
(A4,+PBP,)x=Ax, 
(AI — Ay) x= Pi BP, x, 
where 


x= Pj'y. 
It follows, then, from the Comparison Lemma that 
glb (AI — A,) S lub(B) cond (P,), 
lub (AI -— A,) => glb(B)/cond (P,). 
This leads to the 
General Perturbation Theorem. If A is any characteristic root of A+B, 
and A is normalizable, then 
max | A — 4,(A)| = glb(B)/»(A), 
12 ° 
ie min | A — A;(A)| S lub(B) »(A). 
If B is also normalizable, 
(13) R= Pz Ap Ps’, 


the argument can be continued to give tie 


General Superposition Theorem. If A is any characteristic root of A+B, 
and A and B are both normalizable, then 
| max | A — A,(A)| = min | A,(B)|/»(A, B), 
14 ‘ : 
(14) min | 4 — A,(A)| S max|A;(B)| (A, B), 


18* 


- 
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where »(A, B) = min cond (P;" P,), 
Fa, Pa 
with P, and P; ranging over all matrices satisfying (11) and (13). 


4. 

WIELANDT’s theorem concerning the sum of normal matrices [5] can now 
be generalized as a direct consequence of the Superposition Theorem. In fact, 
if A and B are normalizable, then A+yJ and B—wyl can be diagonalized by 
the same matrices P, and P, that diagonalize A and B. Moreover, 


A+B=(A+pl)+(B—pl). 


Hence, there results the seemingly stronger 


General Superposition Theorem (2nd form). If 4 is any characteristic root 
of A+B where A and B are both normalizable, and if u ts any scalar, then 


max |A— yu —A,(A)| > min|A,(B) — w|/v(A, B), 
4 + t 
ei min |4— wu — 4,(A)| < max |2,(B) — 4|»(A, B), 


where »(A, B) is defined above. - 

The second of these inequalities has the following geometric interpretation. 
Let I" be any circle (of center ) enclosing all roots A;(B), and let its radius be 
expanded by the factor »(A, B). From this, form m (not necessarily distinct) 
circles by translating the center by A;(A) for each 7. The union of these m circles 
includes all roots of A+B, within or on the boundaries. In WIELANDT’s case, 
v(A, B)=1. This interprets the second inequality. In order to interpret the 
first inequality, let J” be any circle (of center ~) containing no root 4;(B). If 
the circle J” is reduced in radius by (A, B), then no root of A+B lies in the 
intersection of the translated circles. 


5. 
WIELANDT’S sharpened form of the Bendixson. inequality is a direct conse- 
quence of his first theorem. For any matrix A, let 


A=H+S, 


where H is hermitian and S skew-hermitian. Let the roots of H be n;, those 
of S be io,. Consider the rectangular hyperbolas in the complex plane with 
axes parallel to the real and imaginary axes. A hyperbola separates the pro- 
jective plane into two regions, and either region can be spoken of as a hyper- 
bolic region. It is to be shown that the roots of A are contained in any hyper- 
bolic region, formed by a rectangular hyperbola whose axes are parallel to the 
real and imaginary axis and which contains all points 4;+70,. 


Let the roots be ordered so that 
MZ ='2SM%, W202 --'20,. 


Since H and S are certainly normal, the circles J’ are not to be expanded or 
contracted, and only the second inequality in the theorem is of interest. By 
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taking J" to have io, and io, as extremities of a diameter and moving its center 
in amourits 7,,...,7,, Tespectively, it becomes obvious that the roots of A 
must lie in the strip between to, and io,; by taking it to have », and , as 
extremities of a diameter and moving the center by amounts 79,,...,7%<,, 
respectively, the roots are shown to lie in the strip between 7, and 7,. Thus 
the Bendixson theorem follows directly, and only points within the rectangle 
whose vertices are 7,-+-10,, 7; +106,, 4,+10,, ,+40,, need be considered. The 
case »=2 will be considered first, and then the method of treating the general 
case will be indicated only briefly. 

For »=2, to omit trivial cases it will be supposed that 7,< 2 and o, >o¢. 
Let o,=—0,=0>0. No restriction will be made if a suitable scalar matrix 
is added to A so that y,=—y,.=7 >0. The circle J" can be any circle with 
center on the real axis and passing through +70; when the center is displaced 
by +7, it appears’ that x+7y is in an exclusion region (that is, it cannot be 
a root of A) if for any real y it satisfies the two inequalities 


(xtyn—y)?+y¥>y?+ 0%, 
or 
2y(n — x) >? — y? — (x — n)’, 


2 (n + x) < — (o?— y*) + (w+)? 


Since only points for which 
n>x>-—7N 


need be considered, these inequalities are equivalent to 
+H — (0? — y(n + x) > 2y > % —H + (8? — y*)/(q — *)- 
But such a y exists if and only if 
2 > (0? — ¥*) [(n — x) *+ (n+ x)" ], 


or, since 7 >0, if and only if 
x2 — yr< n* — o?. 


This inequality defines a region (which may or may not be connected) bounded 
by the unique rectangular hyperbola passing through the points +7-+1t0. By 
applying a similar analysis to the circles of the other family it turns out that 


x2 — y? > 1? — o? 
is also an exclusion region. Hence the roots must lie on the arcs of the hyperbola, 
x2 — y? = 7? — o?. 


A few words will suffice to indicate the treatment of the general case. Form 
a system of circles by passing a circle through the extreme roots of H and trans- 
lating by +o; for each o;. As the common radius varies, an intersection of any 
pair cf these circles varies on an arc of a rectangular hyperbola. This is a con- 
sequence of the discussion of the case for order two. Thus the intersection of 
all unions of the circular regions will be a hyperbolic region bounded by a rec- 
tangular hyperbola which passes through four of the points 7,+-10;. Since the 
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union of any of the sets of circular regions is an inclusion set containing all the 
points 7,+1%0;, within it or on the boundary, the same is true oi the hyperbolic 
region which is the intersection of all these. A corresponding construction can 
be carried out by forming circles containing the extreme roots of S and trans- 
lating by 7, for each m,. Conversely, any hyperbolic region which is bounded 
by a rectangular hyperbola passing through four of the points y,+-10,; and which 
contains all these points is the intersection of unions of circular regions of one 
form or the order. 


6. 

Finally, attention may be called to the fact that the Perturbation and Super- 
position Theorems generalize a well known property of hermitian matrices, and 
the second form of the Superposition Theorem sharpens it slightly. The theorem 
is that if A and B are both hermitian, then for every 4;(A + B) there is a A;(A) 
such that 

|a;,(A + B) —A,(A)| S max | A, (B)|. 
Let the roots of A and B be 
% 2S %= oe 


i, 2=6,2-:-28,, 


2u =p, + B,. 


Then from the second of (14) it follows that for every A=A(A+ B) there is an 
a, such that 


and let 


B,SA—a;S8,. 
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Some tests applied to pseudo-random numbers 


generated by v. Hoerner’s rule 
By 


H. FISSER 


Abstract 


In addition to the preliminary tests carried out by v. HOERNER a more extended 
test-program was set up. 7300 numbers were checked on randomness. The satis- 
factory results are discussed briefly. 


1. In 1957 v. HoERNER [1] proposed a new method for generating pseudo- 
random numbers; the sequences so produced show neither degeneration nor stable 
cycles. (Degeneration and stable cycles are defined ‘in [/].) 

In the simplest case v. HOERNER’s rule for generation has the form: 

_ {¥ if *#2>b 
fe eg if x2<b. 


-aand b are constants which must satisfy the inequalities 


at+b<1, a+b*>b, and b>; (2). 
hence the x; lie in the interval 
bsx4,<b+a<1. (3) 
The first number, %), may be chosen arbitrarily within the limits of (3). 

In a sequence produced according to these rules, the most significant digits 
of the numbers x; are not distributed randomly. For an example let a=0.3 
and b=0.6, and we may work in the decimal number system. The most 
significant digit d, of the number x; must fulfill the condition 

6s4,38. 
This bias from the uniform distribution can be estimated and decreases step by 
step towards the less significant digits. Let k be the position of a digit, starting 
with k=1 to the right of the decimal point, and let s be the number of digits 
used in the calculation. According to v. HOERNER (formula 45 in [7]), the bias 
can be neglected for the positions 


koa +4. (4) 


The application proceeds as follows. We start with any number x, within (3) 
and produce a sequence according to (1). From each of these numbers x; 
approximately three quarters of the digits, according to (4), may then be used 
as random numbers. 

2. By using formula (1), 9 sets of 47-bit numbers were generated on the 
electronic digital computer G2 in Géttingen, Germany. Set 2 had 900, all the 
others 800 numbers. The constants a and b were chosen: a=0.3125 ; b= 0.609375 
As a check all the numbers were calculated twice. Each set of 800 numbers 
was computed and stored on the drum in 15 minutes. 
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Four tests were applied: frequency test, 


2. difference test, . 

3. serial test, 

4. gap test. 
The tests 1, 3, and 4 were previously used by M. G. KENDALL and B. B. SMITH [2] 
to test their table of random numbers. 

In the difference test any two digits in the positions k, and k, of one number 
(41=0) or of two consecutively generated numbers (4i1=1) are subtracted. In 
case of randomness the difference 6 has the density 

| w(6)=25/91, a) sz-1. (5) 
If the test is applied to decimal digits, then Z=10; the G2 works in the binary 
system, and we combined three consecutive bits to octals throughout all of the 
tests; hence Z was 8 in our case. 

The G2 has 47 bits to the right of the point, that is 15 complete octals 
(s=15),; so we tested the 5th, 6th... 15th octal according to (4). 

3. For an example the y?-values of the frequency tests are noted in the follow- 
ing Table 1. The values in one row are got from one set; the values in the columns 
correspond to the frequencies of the respective octal positions (5th, 6th ... 15th). 

The roman numeral over each y?-value denotes that it falls into the O—20% 
range (I), the 20—40% range (II), etc. 


Table 1. y?-values of the frequency tests 




































































{=7 

a. 5 6 7 8 9 10 11 12 13 14 15 
, IV Il | wr | Ive} im’) i I Vv I III I 
(7.64 | 5.48 | 5.80 | 9.60 | 6.12 | 5.16 | 2.66 | 16.36 | 2.78 | 5.96 | 3.66 
2 I IV | Il 7 Loe i av IV III IV V 
3.80 | 8.21 | 4.85 |10.04 | 6.84 | 4.96 | 7.53 | 9.65 | 6.81 8.59 9.85 

3 II V I. wMiw:: (a Vv I III III 
4.66 |12.06 7.96 | 7.92 6.28 | 17.72 | 2.32]. 6.26 | 6.58 

4 IV I I II I IV I Vv III III IV 
7.32 | 2.34 | 3.30] 5.32 | 3.28 | 8.94 | 2.72 | 11.28 | 7.02] 6.10 | .8.64 

5 IV Ill | II V II II II IV I Vv I 
9.64 | 6.70 | 4.58 |12.06 | 4.68 | 4.32 | 4.84 8.10 | 2.78 / 10.50 | 3.42 

6 V IV I II IV | IV I IV I IV Vv 
11.22 | 8.52 1.98 | 5.36 | 9.12 | 7.34 | 2.54/| 7.84 | 2.80] 7.70 | 10.06 

7 III | mz} v | wz} v | mi my Vv Vv I IV 
5.70 | 6.76 |17.32 | 6.96 |12.42 | 5.80 | 5.86 | 13.68 |13.72| 1.36 | 7.64 

8. III III IV II IV III III II V III II 
6.76 | 6.66 | 9.08 | 5.28 | 8.32 | 6.82 | 6.22] 4.90 | 9.96! 7.24 3.96 

9 IV II | Ilr | Tt 2 IV II IV I Vv 
7.46 | 5.04 | 5.98 | 1.20 | 4.08 | 5.28 | 8.04 | 4.16 | 7.34 | 3.36 | 11.72 











© a Te SOR 








Lage, 





[ 
dj 
fi 


Some tests applied to pseudo-random numbers 249 


The frequencies of the various ranges have the following distributions: 
































Table 2 
I II Ill IV Vv My ra P 
frequency test ...... 17 18 22 24 16 | 19.4 | 2.43 | 0.34 
difference test. ...... 10 13 18 18 13 | 14.4 | 3.42 | 0.51. 
GGreenueet os wt ttt 4 Se | 7 11 8 7.2 | 3.72 | 0.55 
a 12 13 11 17 19 | 14. 3.28 | 0.49 


All the P-values fall into the interval $< P<%. 
To make an additional test over all of the sets, we counted the frequencies 
in the 5th, 6th, 7th, ... octal of all 7300 numbers. The y?- and P-values are: 








Table 3 
| 5th | 6th | 7th | 8th | 9th | 10th | 11th | 12th 13th | 14th | 15th 
| 
2 |14.66 | 4.66 | 5.88 | 4.85 | 8.17 | 2.25 | 5.31 14.68 8.18 | 5.66 | 5.46 
P 0.96 | 0.30 | 0.45 | 0.32 | 0.68 0.056} 0.38 0.96 | 0.68 | 0.43 | 0.40 




















To see if the large values of y? for the 5th and 12th octal and the small value 
for the 10th are systematic, a new set of 8000 numbers was calculated and 
tested. The respective values are: 


. 


Xs) _ 6.80 Xir2) said 1.67 Xi0) = 12.53 
P=0.55 P = 0.025 P=0.92. 


Thus we can be sure that the effect is a random one. 
The y?-value taken from the summed frequencies of all 11 octals is 


ioral ~ 7.31 
P = 0.62. 


Thus the results obtained by the different tests — in particular the distri- 
bution of the various ranges — give good grounds to regard v. HOERNER’S 
method as a very satisfactory one for generating pseudo-random numbers. It 
has also been used successfully in Monte Carlo calculations at the Max Planck- 
Institut fiir Physik und Astrophysik in Munich. 
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Programmierung der Restklassenabzahlung 
‘einer Gruppe nach Untergruppen 


Von 


H. FELSCH 


1. Problemstellung 


In einer in dieser Zeitschrift erschienenen Arbeit [3] wurde iiber die Pro- 
grammierung von gruppentheoretischen Verfahren berichtet, die zu einer durch 
Erzeugende vorgegebenen endlichen Gruppe den Halbverband der auflésbaren 
Untergruppen zu berechnen gestatten. Dabei muBten damals die Erzeugenden 
der Gruppe als Permutationen vorliegen. Um das Programmsystem auch auf 
Gruppen anwenden zu kénnen, die durch definierende Relationen gegeben sind, 
war eine Umwandlung in eine Permutationsdarstellung der vorgegebenen Er- 
zeugenden notwendig. Aus dieser Anregung entstand das Programm der Rest- 
klassenabzahlung einer Gruppe & nach einer vorgegebenen Untergruppe Ul. Uber 
den beschriebenen Zweck hinaus kann das Programm eigenes Interesse fiir die 
Aufstellung von definierenden Relationen fiir anderweitig charakterisierte Grup- 
pen und die Auspriifung dieser Relationen auf Vollstandigkeit oder Uberbestimmt- 
heit beanspruchen. Auch Untersuchungen auf Normalteilereigenschaft lassen sich 
mit seiner Hilfe durchfiihren [7]. 

Das vorliegende Programm ist ein Teil meiner Diplomarbeit [2]. Herrn Professor 


K. H. Weisz, der die Entstehung dieser Arbeit am Kieler Rechenzentrum erméglicht 
hat, méchte ich dafiir herzlich danken. 


2. Das Verfahren der Restklassenabzahlung 


Als Grundlage fiir die Programmierung dient die Darstellung des bekannten 
Verfahrens der Restklassenabzdhlung durch H.S.M.Coxeter und W.O. J. 


MosER [1]. Eine Gruppe & mit dem Einheitselement E sei in den Erzeugenden E; . 


(t=1,..., m) durch definierende Relationen 
(1) g,(E,,E¢,...,E,) =E. mit k=1,2,...,8 


vorgegeben. Die Untergruppe U, nach der die Restklassen abgezahlt werden 
sollen, werde durch die Elemente F,(E,,..., E,,) mit 7=1, ..., erzeugt. Durch 
Ausrechnung einer Restklassenzerlegung 


(2) G®=UG,+UG,+---+UG, mit G,¢@firalle7; G,=E 


gewinnt man zunichst bei Kenntnis der Ordnung von U die Ordnung || von 6, 
sonst zumindest eine Abschatzung nach unten fiir |@|. Stets ergibt sich eine 
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Permutationsdarstellung fiir Erzeugende der Faktorgruppe G/M von @ nach dem 
gréBten in U enthaltenen Normalteiler % von G, indem man zu den dann bekann- 
ten Beziehungen (UG,;)E;=UG,c® (j=1,...,7; i=1,..., m) fiir jedes E; die 
Permutation 


3) R=(; 2 ‘age! 


4, ty y...4, 
aufstellt. 


Bei der Ubertragung des von CoxETER und MosER angegebenen Verfahrens 
auf eine Rechenmaschine mu8B man auf einige charakteristische Maschineneigen- 
schaften Riicksicht nehmen. Bei der Rechnung per Hand (s. [1], S. 14) werden 
so viele Exemplare jeder Relation g, hingeschrieben, wie es Restklassen gibt, 
da g, auf alle UG; angewendet wird. Dabei werden haufig identische Zeilen 
mehrfach angelegt. Wegen des beschrankten Speicherraumes einer Maschine ware 
eine direkte Ubertragung dieses Verfahrens auf eine ‘solche sehr ungiinstig. Fiir 
sie geniigt es, bei Bekanntwerden einer Beziehung (UG;) E; = UG, in einem Rest- 
klassenspeicher G mit Beginnadresse G,, in den hinteren Teil h(j,7) einer dem 
Indexpaar (j,7) zugeordneten Zelle Gy+7-m-+1 den Index k fiir das Bild von 
UG, bei E; einzutragen und entsprechend in den vorderen Teil v(k, 2) der (f, 2) 
zugeordneten Zelle Gy+k-m-+i den Index; zur Kennzeichnung des Urbildes 
von UG, bei E;*. Mit diesen Informationen kann die Maschine die Relationen 
stets neu vorwarts oder riickwarts durchlaufen und macht den erhéhten Rechen- 
aufwand durch ihre Schnelligkeit leicht wett. 

_ Weiterhin kann eine Maschine nicht ohne weiteres erkennen, welche Defini- 
tion einer neuen Restklasse zu einem bestimmten Zeitpunkt am giinstigsten ist, 
das heiBt die meisten Folgebeziehungen aus den Relationen ergibt. Die Defini- 
tionsreihenfolge muB also irgendwie festgelegt werden, aber so, daB mit Sicherheit 
jede verfiigbare Information aus den Relationen entnommen werden kann. Im 
folgenden wird angedeutet, welcher Weg bei dem Programm fiir die Kieler Z 22 
eingeschlagen wurde. | 


3. Eingabe der Erzeugenden 


Der freie Speicherplatz auf der Trommel nach dem Programm ist in sieben 
aufeinanderfolgende Tabellen A bis G aufgegliedert. 


A Speicherplatz fiir Relationen, 

B Adressen der Anfange der Relationen, 

C Umwandlungstabelle fiir externe Erzeugendensymbole, 
D Vormerkbuch fiir Folgebeziehungen, 

E Vormerkbuch fiir Gleichheiten, 

F Fahndungsbuch, 

G Restklassenspeicher. 





* Bei der Z 22 enthalt eine Zelle38 Bits; als hinterer Teil wurden die untersten 
13 Bits gewahlt. Zum Beispiel ist fiir (UG;)E;=UG,, (UG,) E7*=UG, der Inhalt der 
(j, 4) zugeordneten Zelle: 


[Got -m+i]=2" -1+k; v(j,a)=2, h(j,i)=k. 
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Beim Einlesen diirfen ais Symbole fiir Erzeugende E; und F; normale Fern- 
schreibzeichen wie A, B1, E43 usw. verwendet werden. Die Maschine ordnet 
ihnen mit Hilfe der Umwandlungstabelle C die Zahlen von 1 bis m zu (also die 
Indizes der zugehérigen E;), so daB eine leichte Adressenrechnung ermdglicht 
wird. Die Relationen — die zum Lochen z.B. nur von B1AB=C? auf 
=B’ABC'C’= umgeformt zu werden brauchen — werden in Tabelle A vor- 
gemerkt, ihre Anfangsadressen in Tabelle B. Nach ihrer vollstandigen Eingabe 
legt die Z22 das Fahndungsbuch F an, in dem fiir jede Erzeugende E; notiert 
wird, an welchen Stellen in Tabelle A sie mit welchen Exponenten auftritt. Mit 
Hilfe des Fahndungsbuches werden spater Folgebeziehungen ermittelt. 


Auf die Relationen folgend werden die Erzeugenden F, von U eingegeben. 
Die Beziehungen UF;=U werden dabei in dem schon besprochenen Restklassen- 
speicher G vorgemerkt, in dem bei Beginn des Lesens durch Léschen aller Trom- 
melzellen (mit 0) alle Bilder und Urbilder als nicht bekannt festgesetzt sind. Fiir 
die Speicherung der F;(F,...E,,) werden so viele neue Restklassen definiert, 
daB die Aussage 1F;=1 fiir die intern durch ihren Index mit 1 bezeichnete Rest- 
klasse U=UG, iiber alle Erzeugenden des Wortes F; hinweg realisiert wird. Zum 
Beispiel wird bei F, = A?B notiert: 14 =2, 2A =3, 3 B=1, wobei die bekannten 
Bilder und Urbilder bei den definierten Restklassen 1, 2 und 3 vollstandig in G 
eingetragen werden. Folgt jetzt etwa noch F,= B?, so wird 1B=4 und 4B=1 
entsprechend definiert, woraus sofort die Gleichsetzung 4= 3 fiir die unabhangig 
voneinander eingefiihrten Restklassen 3 und 4 entsteht. Fiir eine solche wird 
ein spater zu besprechender Programmteil benutzt. 


4. Die Rechnung 


Zur Kontrolle druckt die Maschine zunachst die eingegebenen Werte noch 
einmal aus und beginnt dann mit der Definition. neuer Restklassen und der 
Auswertung dieser Festsetzungen. 

Sind an einem bestimmten Punkt der Rechnung alle Abbildungsbeziehungen 
fiir die inzwischen definierten 6 —1 Restklassen hergestellt, so ist das Verfahren 
abgeschlossen, falls alle Restklassen 1, 2,...,8—1 bei allen Erzeugenden Bild 
und Urbild besitzen. Ansonsten gibt es eine minimale Adresse Gy+am-+1, so 
daB die zugehérige Zelle vorne bzw. hinten noch nicht ausgefiillt ist. Die Rest- 
klasse « besitzt also bei der Erzeugenden E; noch nicht Urbild bzw. Bild. Die 
Maschine definiert durch 


(4) aEj*=B baw. «a£;=8 


die nachste neue Restklasse 8 und tragt sie als Bild und Urbild in Tabelle G ein. 
Da die weitere Bearbeitung fiir beide Definitionen (4) im wesentlichen gleich 
verlauft, wird hier nur der Fall «E;=£ behandelt. Mit Hilfe des Fahndungs- 
buches F sucht die Maschine die erste Stelle in den Relationen auf, in der E; 
oder E;* auftritt. Die gefundene Relation g, werde, eventuell nach Inversion 
und zyklischer Umschreibung, in der Form dargestellt : 


(5) 6 = E, ER E®...EG*EG=E mit e,=+1. 
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Es folgt daraus durch Anwendung auf «: 
(6) BEE ER ER EGER =e mit £,=£,,=E. 


Mit Hilfe der Speicherungen in Tabelle G werden die Bildrestklassen der Folge 
B=BER, BE, ... bis zur letzten bekannten BEE... Ez = y aufgesucht, falls 
%<7; sonst wird x=7 und y=«ag, gesetzt. Entsprechend werden die Urbild- 
restklassen der Folge a=a £7 ,aE7 4, ... bis zur letzten bekanntena Ej, 9EA SH... 
E;,**=6 ermittelt, falls y> “+4; sonst wird y=x+1 mit dem zugehdrigen 6 
gewahlt. Insgesamt gilt demnach OS x< ySj7+1. (Alle GréBen hangen noch 
von der Relation g, und der Stellung von E£; darin ab.) 


Aus der Relation (5) folgt 


(7) y Efetn E&e+ Ess .. : De a é. 


tz+1 ~~ trt+g ~ tts ty-1 


Bei y= x-+2 ergibt sich daraus direkt 


(8) yee 6, 

was wir eine ,,Folgebeziehung*‘ nennen wollen. Sie wird in einer dafiir vor- 
gesehenen Liste D vorgemerkt und bei den Platzen fiir y und 6 in G eingetragen. 
Dagegen ist bei y>x-+2 die aus (7) folgende Beziehung nicht verwendbar und 
wird wieder vergessen, da in G keine Zellen fiir die Ubergange von Restklassen 
ineinander bei Erzeugendenprodukten vorgesehen sind. In beiden Fallen wird 
im Fahndungsbuch die nachste Stelle entnommen, an der £; in Relationen auf- 
tritt, und der gleichen Bearbeitung unterworfen. 

Fiir y=x-+1 entnimmt man y=6 aus (7), und falls diese Restklassen bisher 
verschieden waren, miissen sie gleichgesetzt werden. Dies wird im nachsten Ab- 
schnitt ausfiihrlicher behandelt. 

Nachdem das Fahndungsbuch in dieser Weise fiir die definierte Beziehung (4) 
ganz durchlaufen worden ist, gibt es keine weiteren direkten Auswirkungen von 
(4) in der Form (8) durch SchlieBen von Relationen mehr. Es miissen nun nach- 
einander alle gefundenen Folgebeziehungen aus Tabelle D entnommen und auf 
die gleiche Weise ausgewertet werden, um die in ihnen steckende Information 
auszunutzen. Eventuell entstehen bei ihrer Bearbeitung neue Folgerelationen. 
Erst bei leerem D ist wieder der Programmpunkt erreicht, von dem wir aus- 
gingen. Es darf nun untersucht werden, ob das Verfahren mit diesem Schritt 
beendet ist. Andernfalls wird die nachste neue Restklasse B+1 definiert. 


5. Die Gleichsetzungen 


Falls bei der Eingabe der Untergruppe oder der Rechnung entdeckt wird, 
daB: zwei unabhangig voneinander definierte Restklassen my und y mit p<yp 
gleichgesetzt werden miissen, so wird dieser ProzeB vor allen anderen bevorzugt 
durchgefiihrt. Es werden fiir jede Erzeugende £; einzeln alle Informationen in 
die kleinere, ,,iiberlebende‘‘ Restklasse g iibernommen und dann léscht die 
Maschine y aus, was sie bei dem Kieler Programm durch Einspeichern einer — 1 
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in die entsprechenden Zellen (alle Bits werden 1) erreicht. Eventuell entstehen 
bei diesem ProzeB neue Gleichsetzungen, die in Tabelle E aufgehoben werden. 


In der ersten Fassung des Programmes eliminierte dieses alle Notierungen y in 
dem Speicher G, indem es jede bereits definierte Restklasse abfragte, ob bei 
einer Erzeugenden y als Bild oder Urbild vorkame, und gegebenenfalls y durch 
g iiberspeicherte. Der hierfiir nétige Zeitaufwand wuchs proportional der letz- 
ten bekannten Restklasse 6 und wurde bei groBen Gruppen unertraglich hoch. 
Deshalb wurde ein abgedndertes Programm entworfen. Beim Gleichsetzen kann 
man giinstig Gebrauch von der Reziprozitat der Speicherung in G machen. Bei 
Giiltigkeit der Beziehung yE;=6 ist h(y,1)=6 und v(6,1)=y, wobei 6 sonst 
in keinem anderen hinteren Zellenteil 4(€,7) auftreten kann, entsprechend y in 
keinem anderen v (é, 7). Diese Zuordnung erlaubt, aus den Eintragungen v (y, 1)=- 0 
und h(y, t) +0 fiir die Restklasse yp alle Stellen zu finden, an denen sie in G auf- 
tritt, so daB y dort entfernt werden kann. Da nun aber auch bei Gleichsetzungen 
diese eineindeutige Entsprechung erhalten bleiben muB, darf py nicht stets durch 
gy ersetzt werden. Es muB manchmal eine bestehende Zuordnung durch Ein- 
speichern einer Null in G zerstért und dafiir eine neue Gleichsetzung in Tabelle E 
aufgehoben werden, damit nicht doppelt als v(.,7) oder A(., 7) auftritt. Dies 
geht aus der folgenden Ubersicht hervor, die einige der insgesamt méglichen 34 
charakteristischen Falle von Gleichsetzungen zeigt. Die Gleichsetzung zweier 
Restklassen und y werde fiir die Erzeugende E;, d.h. fiir die Zellen Gy+ mom-+7 
und Gy+ym-+1, vorgefiihrt. Auftretende neue Restklassen 9’, p’’, y’, y’’ seien 
stets ungleich g und y. Eine Null bedeutet, daB noch keine Restklasse an dieser 
Stelle als Bild oder Urbild bekannt ist. 




















Tabelle 
Vor der Gleichsetzung Nach der Gleichsetzung 
e | ¥ Y —— Bo 0 geht nach @ geht nach 
ii | or ' pe 
y’ A y’ - y" 9” os i |o’=v': gp” =y'h(y’, i); oly : i)| <a 
oO v2 | v’ 2 v’ 9 a 2p =y" u(y”, i) Aly’, i) 
ph Nina th ath ite. oi a. Pelee Me teed in - h(p’, 1); oly’, t) 
? 4 | ° ° P | yh = : | Pas, 53 s . 
y |?» yt oh da a ord y= pays l h(y’, t) 
2 4, he Boe, ie eee a ee = 
y Oo y y 7 ores y= | = A 
0 y 4 0 p oY rs = sae — 
0 | O y y P QP —1 ae | antes a 
yiv 9|erl1r yp -t1 - — — 








Nach Ausfiihrung einer Gleichsetzung fiir alle Erzeugenden E; wird y in den 
Tabellen D und E durch @ ersetzt. Danach entnimmt die Maschine die zuletzt 
in E vorgemerkte Gleichsetzung und bearbeitet sie analog. Damit der Speicher E 
beim Auftreten vieler Gleichsetzungen nicht zu sehr anschwillt, wird eine solche 
in nur aufgenommen, wenn sie noch nicht vorhanden ist. Um diese Priifung 
méglich zu machen, wird die Anordnung ,,y soll gleich 6 gesetzt werden“ in 
der Form y- 2%+6 bei y<6 oder 6-2!%+y bei d<y abgespeichert. Dieses 
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erfordert, da8 bei.der Ersetzung von y durch » in E gegebenenfalls Gleich- 
setzungen umgedreht oder sogar, wenn sie trivial wurden, fortgelassen werden 
miissen. Erst nach Abarbeitung aller Gleichsetzungen aus E darf die Maschine 
zur Weiterfahndung fiir die letzte Beziehung zwischen Restklassen zuriickkehren. 


Bei der geschilderten Programmierung hangt die Zeit fiir eine Gleichsetzung 
nicht mehr direkt von der Anzahl der Restklassen in G ab, eventuell nur noch 
in besonderen Fallen indirekt durch eine sehr groBe Vormerkungsliste fiir Gleich- 
heiten in E. 

Durch eine Serie von Gleichsetzungen kann bei Fortsetzung der Fahndung 
eine friiher erfolglos durchlaufene Relation jetzt geschlossen sein, ohne daB die 
Maschine die schlummernde Folgebeziehung, etwa y£;=6, merkt. Man kann 
aber leicht einsehen, daB diese Beziehung vor Ende der Rechnung aufgefunden 
und durch Gleichsetzungen behoben wird, und zwar spatestens bei einer Definition 
yE;=B oder 6E;'=8 fiir eine neue Restklasse 8. Dabei geht aber wesentlich 
ein, daB bei den Restklassen in natiirlicher Reihenfolge Bilder und Urbilder 
vervollstandigt werden. 


6. Ausgabe und Ergebnisse 


Durch Betatigung eines Programmschalters ist es méglich, wahrend der Rech- 
nung Definitionsgleichungen und Folgebeziehungen (eingeriickt) auszudrucken. 
Dies geschieht meist nur der Kontrolle halber, um am Verhiltnis der definierten 
und vollstandig bearbeiteten Restklassen die Wahrscheinlichkeit abzuschatzen, 
daB die Abzéhlung im Rahmen der Speicherkapazitat der Maschine méglich ist. 


Bei Konvergenz des Verfahrens wird nach Beendigung der Abzahlung der 
Index der Untergruppe U in % und eine Permutationsdarstellung der Erzeugenden 
in Zyklenschreibweise ausgegeben, wie im Beispiel ersichtlich, Die Numerierung 
der Restklassen bleibt zunadchst so erhalten, wie sie in der Rechnung ent- 
stand, aber es ist auch nach Beseitigung der durch Gleichsetzungen aufgetretenen 
Liicken nach (2) die Numerierung von 1 bis y méglich. Daneben kann ein Streifen 
gelocht werden, der direkt fiir die weiteren gruppentheoretischen Programme als 
Datenstreifen verwendbar ist. 

Bei der Z22 werden von der gesamten Speicherkapazitat von 8192 Zellen 
1024 fiir das Grundprogramm, 1260 fiir das besprochene Restklassenabzahlungs- 
programm und normalerweise vorsorglich etwa 600 fiir die Tabellen A bis F 
verbraucht. Bei m Erzeugenden bleibt in Tabelle G Platz fiir rund 5300/m Rest- 
klassen. In Spezialfallen kann die Zahl durch beste Ausnutzung aller Méglich- 
keiten auf etwa 6750/m gesteigert werden. 


Bei dem angefiihrten Beispiel einer Gruppe der Ordnung 24 betrug die Zeit 
fiir die Berechnung und das Ausdrucken der Permutationsdarstellung 63 sec. 
Die durch die Relationen G,G,G,=E, G5'G,G,=E, G;6,Gg'=E, G,G;'Gy =E, 
G,G,G,=E und G,'G;'G,=E als Fundamentalgruppe des spharischen Dode- 
kaeder-Raumes gegebene binaére Ikosaedergruppe der Ordnung 120 erforderte 
14 min, 20sec. In der durch die Relationen A*&'= B?=(AB)?=(A1B)8=E ge- 
gebenen Gruppe der Ordnung 10 752 wurden bei der Rechnung nach der durch 
A? und AB erzeugten Untergruppe vom Index 448 zundchst etwa 1300 Rest- 
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klassen definiert, so daB infolge der vielen Gleichsetzungen die Rechenzeit rund 
4 Std betrug. 





1B=2 | 
3B=1 | 
24 =4 | Index: 8 
4B=4 
paren = + = Aas Permutationsdarstellung : 
=ABAB’A’B’= 2B=6 
3A =7 A=(24 5) (3 7 8) 
UGR: 7B=5 B=(1 2 3) (597) 
ae 8A =3 A =(2 4 5) (3 67) 
8B=8 | B=(1 2 3) (5 8 6) 
7A=8 
5B=9 
9A =9 
9B=7 





Beispiel eines Rechenprotokolls 
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Absolute and monotonic norms 
By 
F. L. BAUER, J. STOER and C. WITZGALL 


Studying the mechanism used to derive certain inclusion theorems [2] and 
exclusion theorems [1], one observes that the following property of certain bound 
norms is essential: the least upper bound of a diagonal matrix is the maximum 
of the moduli of the diagonal elements. In this paper, we characterize the class 
of these least upper bound norms and the class of vector norms to which they 
are subordinate, and show some of its properties. We complete some results 
given already in [1] and prepare the. basis for the following paper [3]. Some 
of the concepts used in this paper have been considered in the general context 
of partially and lattice-ordered vector spaces (KANTOROVIC [9], FREUDENTHAL [7], 
BirKHOFF [5}). 


1, 


Let norm(x) denote a norm! in an n-dimensional complex coordinate space. 
Let |x| denote the vector the components of which are the moduli of the com- 
ponents of x. Inequalities between vectors are understood to hold component- 
wise. We then call norm (x) 


(1.1) monotonic? 


if 
|x| <|y| implies norm(x) S norm(y). 


Further, a norm is called 

(1.2) absolute 

if it depends only on the moduli of its components, that is, if 
norm (x) =norm(|x|) for all x. 


It is well known ([10], [8]) that every norm in the space of column vectors x 
induces a dual norm 





D(yH) « — Re (y# x) 
(1.3) ey ps norm (x) 


in the dual space of row vectors y”. 
Theorem 1. The duai of an absolute norm is again absolute. 





1 We require only weak homogenity, that is, norm (a*)=anorm(z) for «20. 

2 FIEDLER and Prak [6] use‘a slightly different notion of monotonicity. Compare 
also (3.1). 
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Proof. For every y” and x there exists a vector ¥=%(x, y) with |%|=|x| 
such that y¥%=|y|”|x|. We have 


norm? (y") = 


by restricting the set. Then Re(y”%) may be replaced by |y”| |x|, and norm (%) 
by norm (x), since this is an absolute norm. Thus 


D ly | le 
— (y") = max on norm (x) * 


x Rely" *) & max Rely" 3) 
ae norm(*) ™~ x0 morm(%) ’ 


On the other hand, 
x Re(y# #) < max |y# | |+| 
x+0 norm(*) ~ x0 norm(z) ’ 





and therefore, 


Diult\ — max IAI 
(1.4) Ree) eer 


Thus, norm? (y”) depends only on |y"|, q.e.d. 


After this preparation, we prove 
Theorem 2. An absolute norm is monotonic and vice versa. 


Prooj. Let norm(x) be absolute. Then its dual is absolute too (theorem 1), P| 
and formula (1.4) applied to norm? (u”) gives 
- mz 
_ wll] HF || 
(1.5) aac le roo ‘norm? (w#) ~ normD (@#) 


for some maximizing #”. Now if |x| <|y|, we have 


< 1 llyl md) 
horm (*) & normD (44) = “20 i normD (4/4) norm (y). 
Assume that norm(x) is monotonic. Put y:= |x|. Then |x| =|y|, which implies 


norm (x) < norm (y) =norm ({x|), but also norm (y) =norm (|x|) <norm (x). There- 
fore, norm (x) =norm(|x}). 
In particular, a monotonic norm is always strictly homogeneous’. 


2. 


Let norm;(x) be a norm in the m-dimensional, and norm,;(y) a norm in the 
m-dimensional complex coordinate space. Then 


Ames norm); (A *) 
(2.1) lubj;, 1(A) =e norm,(2)_ 


defines a norm in the linear space of m xn-matrices A, which is called the 
(2.2) least upper bound norm 
_ subordinate to norm;(x) and norm,;(y). Both norms may be identical. The 
following theorem refers to this case. 

Theorem 3. norm(x) is absolute/monotonic 1f and only if for the subordinate 
bound norm, 
(2.3) lub(D) = max | d;;| 


holds for any diagonal matrix D = diag (d;;). 





’ That is, norm (x*)=|«|norm(*) is true for every «. 
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Bound norms with property (2.3) have been.called axis oriented in a previous 


paper [J]. 
Proof. |Dx|s (max |d;;|)|x| is true for any x. If norm(x) is monotonic, 


then norm(Dx)< (max |d,,;|)norm(x) for every x, i.e., 


lub (D) — max | d;;| ° 


But, since‘ lub (D) >| 4,,| for all ¢, 
lub (D) = max | d;;| 


and therefore (2.3) holds. 
For each x there exists a diagonal matrix D, such that 


x=D,{x| and |D,| =I. 
Now, if (2.3) holds for every diagonal matrix, we have 
norm (x) < lub(D,) norm(|x|) = norm (|x|) 
norm(|*|) < lub(D;*) norm (x) = norm(s), 
and therefore, norm (x) =norm (|x|). 


3. 

The bound norm lub; ;(A) of two monotonic norms is not necessarily a 
monotonic norm. Indeed, the euclidean norm is a monotonic norm, but the 
euclidean bound norm is not. However, monotonicity holds in a weaker sense. 

We call norm (x) 

(3.4) monotonic in the positive orthant 
if 
OS *Sy implies norm(x) S norm(y). 

Theorem 4. The bound norm luby, ;(A) of two absolute norms is monotonic 
in the posttive orthant. 

Proof. We have for OS A 








normy;(A#) _ normy(|4 #|) — normy (A |*|) 
norm, (*) norm, (|*|) = morm;(|+|) * 
Therefore, an %,=0, % 9 +0 exists such that 
luby, 1(A) = max normy, (A *) _ hormy (A %o) 
. z+0 norm, (7%) norm, (%9) 


If now OS ASB, then |A x| <|B x|, and therefore, normy;(A x9) < normy;(B %9), 


or 
normy(B %) < max Pormn(B *) _ yb, 1(B). 


norm;(% 9) ~ x0 normy,(%) 





luby;, 1(A) S 


Any norm that is monotonic in the positive orthant coincides in that orthant 
with an absolute norm. Indeed, parallel to theorem 2, we have 





4 In general, let A x= Ax, x+0. Then norm(*)> 0, and for a strictly homogeneous 
norm, || norm(*) Slub(A)norm(#), that is, |A| Slub(A). 
19* 
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Theorem 5. norm(x) ts monotonic in the positive orthant 1f and only if 
f(x) := norm (|x|) 
is a norm again. 

Proof. Obviously, /(x) is definite and (strictly) homogeneous for any norm (x). 
Moreover, if norm(x) is monotonic in the positive orthant, |x+ |< |x|+|y| 
implies {(x-+ y)=norm(|x+ |) <norm(|x|+|y|), and from the convexity of 
norm (x) it follows that 


f(x + y) S norm (|x| + |y|) S norm (|x|) + norm(|y|) = f(*) + f(y). 


This proves® one half of the theorem. The other half is an immediate con- 
sequence of theorem 2 since /(x), if it is a norm, is an absolute norm and coincides 
with norm(x) in the positive orthant. 

Since lub;; ;(A), subordinate to two monotonic norms, is monotonic in the 
positive orthant, luby;, 1(|4]) is a norm, too, Moreover 


(3.2) luby, 1(A) S lubyy, 1(|A]) 
holds, since |A x| < |A| |x| gives 
normy(A x) S normy;(|A| |x|) < luby;, ;(|A|) norm, (x). 


4. 
Every norm satisfies together with its dual norm the Hélder inequality 


(4.1) norm (x) norm? (y”) > Re(y* x). 
We call (x, y”) a dual pair if equality holds in (4.1). For every vector x there 


exists a dual vector y” such that (x, y”) are a dual pair. 
If norm (x) is strictly homogeneous we have 


(4.2) norm (x) norm? (y") > |y" x|. 


But, the following even stronger version, of the Hélder inequality is valid for 
absolute norms, 

(4.3) norm (x) norm? (y") > |y*| |x|. 

Theorem 6. norm(x) is absolute/monotonic if and only if the strong version 


(4.3) of the Hélder inequality holds for every pair of vectors x, y". 
Proof. Obviously, 





Re(y# x) |v | |x| 
norm (x) = max ——“——__ = max tl 
(+) y+o0 normP(yH) ~~ yo norm?(y4) 


Now the strong Hélder inequality (4.3) implies 
|v] || 
norm (4) NE orm) 


|y#| |x| 
norm (x) = es 
poran () == max —oemP (ll 





and therefore, 











5 This proof is essentially the same as given by Ostrowski [11] in the more 
general case of compound norms. 
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Hence, norm(x) depends only on |x|. On the other hand, if norm (x) is absolute 
then by theorem 1 its dual is absolute, too. Therefore 


norm (x) norm? (y”) = norm (|*|) norm?(|y"|) > |y*| |x| 


holds for arbitrary vectors x, y", q.e.d. 

It is. plain that versions (4.2) and (4.3) of the Hélder inequality are both- 
sided sharp. Indeed, for dual pairs (x, y”) we have in case of strictly homo- 
geneous norms 


(4.4) norm (x) norm? (y") = y" x =|y" x], 
and in case of absolute norms 
(4.5) norm (x) norm? (y#) = y# x =|y#| |x|. 


Note, that equality in (4.3) or (4.2) does not imply equality in (4.1). Thus it 
must be remembered that we define duality of vectors with respect to (4.1), 
i.e., a dual pair of vectors is required to realize equality in (4.1). 


5. 

In this part we shall study properties of vectors which are a dual pair with 
respect to an absolute norm. Then the strong Hélder inequality (4.3) holds 
and implies (4.5). This leads at once to 

Theorem 7. J/ norm (x) is absolute/monotonic, then for every dual pair (x, y"), 
x>0 implies y¥=08. 

If some components of a nonnegative vector x vanish, then the corresponding 

‘components of some dual y” may be negative or not even real. But if so, then 
|y|, too, is dual to x since 


norm (x) norm? (|y*|) = norm (x) norm? (y#) = |y#| |x| = Re (|y"|2). 


We may sharpen this result. 

Theorem 8. Jf norm(x) is absolute/monotonic, then for each nonvanishing 
x=0 exists a dual y¥>0 such that x,=0 implies ¥;=0. (x; and y,; denote com- 
ponents of x and y*.) 

Proof. Choose any dual y”. Consider the vector 7” the components of which 
vanish if the corresponding components of x vanish, and which equals |y"| 
otherwise. We shall show that y” is dual to x. This will complete the proof. 


We note 
(5.4) Re (# x) = Re(y# x) = norm (x) norm? (y”). 
The last product of norms does not vanish, since x +0 by hypothesis, and y” +0 
by definition of a dual vector. Hence 
yt +0. 


It remains to verify that 7” and x satisfy the equality sign in the Hélder 
inequality. 





6 “>” between vectors is understood to hold componentwise. 
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(5.4), the monotonicity of norm”, and finally the Hélder inequality (4.1) imply 
Re (y# x) = norm (x) norm? (y”) > norm (x) norm? (y") > Re(¥* x). 


Therefore, 
norm (x) norm? (7#) = Re(y" x), q.e.d. 


The geometric significance of theorem 8 can be seen more clearly in the case 
of a real coordinate space. Consider a dual pair (x, y”) which is scaled such that 


norm (x) = norm? (y”) = 1. 
Then y” characterizes a hyperplane supporting the norm-convex 
K:={u: norm (u) <1} 


at the boundary point x of K. Now, if an x with norm(x)=1 belongs to a 
proper coordinate subspace S, then theorem 8 shows the existence of a supporting 
hyperplane H through x such that the angle < (S, H) is a right one. 

Moreover, from theorem 8 it follows immediately 

Theorem 9. For absolute/monotonic norms, axis vectors e' are self-dual, i.e., 


norm (¢*) norm? ((e*)") = (e*)¥ ef =1. 


A consequence of theorem 9 has been used in [1] to derive lower bounds for the 
condition of a matrix of eigenvectors. Another consequence is the inequality 


(5.2) ‘max (|| norm (e*)) < norm (x) 


for absolute norms. Indeed, using theorem 6 we get 


je*|# |x 


norm? ((e)#) i (|;| norm (¢')). 


norm (x) = max 
6. 
An elegant direct proof of theorem 9 may be based on theorem 3 and the useful 
-Lemma I. If norm(x) ts strictly homogeneous, then 
| lub (x y”) = norm (x) norm? (y"). 
We then have 
norm (e*) norm? ((e’)”) = lub (e’ (e’)”) = (e)¥ ef =1 


since e* (e*)" is a diagonal matrix with the only nonvanishing element d; ; = (e*)” e' =1. 
This argument justifies the denotation ‘‘axis oriented’”’ [1] for the bound norm 
in theorem 3. 


Proof of lemma lI. By (4.4) we have 


H H 
lub (x v”) = max one Ee an norm (x) - max ek 
’ u+0 norm(u) u+0 norm(u) 





== norm (x) norm? (y*). 


A lemma similar to lemmalI ‘holds for the duals of strictly homogeneous 
bound norms. 
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Lemma II. Jf norm(x) is strictly homogeneous then 


ya xP 
norm(%*) norm?(y#) 


norm (x) norm? (y”) > lub? (x y#) => 
holds for x +0 and y# +0. 


Proof. The bound norm satisfies version (4.2) of the Hélder inequality 


lub (A) lub? (B”) = | trace (B¥ A)|. 
This yields 


lub (xy) lub? (x y#) => | trace (x y" x y")| = jy" x| | trace (x y4)}| == |v x/2, 
| yi 


and by lemma I 
norm (x) norm? (y) tub? (x y”) > | y¥ x|?. 


This yields a lower bound of lub? (x y”). 
On the other hand, choose a matrix A +0 which is lub-dual to xy”. We 
then have 


lub (A) lub? (xy) = trace(x y" A) = y4 A x < norm?(y”) lub (A) norm (x). 


This establishes an upper bound of lub? (xy). 
As an immediate consequence of lemma II we have 
Lemma III. If norm(x) is strictly homogeneous then for every dual pair (x, y") 


lub? (x y”) = norm (x) norm? (y") = y4 x 
holds, and (xy, yx") ave a dual pair with respect to the bound norm, 1.¢. 
lub (x y”) lub? (x y”) -= trace (« y" xy") = (y" x). 
7. 


The following theorem may be regarded as the dual of theorem 3. 
Theorem 10. J/ norm(x) ts absolute;monotonic then 


lub? (D¥) = > |d;;| 


holds for any diagonal matrix D = diag (d;;). 
Proof. For each diagonal matrix D = diag (d;;) there exists a diagonal matrix 
T = diag (¢;;) such that 


(7.1) D¥T=|D| and |7|=I. 
Theorem 3 implies lub(T)=1. Therefore, 
lub? (D”) = lub(7) lub? (D”) = trace(D” T) = 2) | d;;|. 


Denoting axis vectors by e' we-have D= >  d,,e'(e')", and therefore 
i 


lub? (D¥) < 5 |dj;| lub? (e'(e')*). 
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Now if norm(x) is absolute then theorem 9 shows that axis-vectors e* are self- 
dual. Hence by lemma III 


lub? (e* (e*)”) = (e)¥ ef = 4 

holds for every +. This completes the proof. : 
For the euclidean bound norm 
lub (A) = max w,; (A) and lub? (A”) = )\a,(A), 





where w;(A) are the singular values of A. This is a special case of a more general 
result of VON NEUMANN [10]. It follows from theorem 3 and theorem 10 by 
virtue of the invariance property of the euclidean bound norm, 


lub(UAV) =lub(A), U,V unitary, : 
and the immediate consequence of this 
lub? (U A V) = lub? (A¥), 
since UAV =diag(w,) for suitable U, Y. 


From theorem 10 we may conclude that every nonnegative real diagonal 
matrix D=+0 is lub-dual to the identity matrix J. Hence, for absolute norms, 
the surface of the lub-convex {A: lub(A)<1} is not smooth at the point J. 
Actually, this may be shown for arbitrary bound norms [4]. 

The set of all matrices being dual to the identity matrix J with respect to 
the euclidean bound norm is thé convex cone of all positive semidefinite matrices. 
This follows from voN NEUMANN’sS results [10]. 
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On a Method by D. H. Lehmer for the 
Generation of Pseudo Random Numbers 


By 
WERNER LINIGER 


A method for generating sequences of decimal or binary pseudo random 
numbers is suggested and discussed in [J, pp. 144, 145]. The decimal process, 
D,, yields eight-digit integers, u;,.4=1,2,..., and is defined as follows: 


by the two most significant, and by the eight least significant decimal 


Let 15 u%,< 10%, u, integer. For i=1, let g; and 7; be integers represented 
D, | 
digits of the ten-digit number, 234;; respectively. Let u;,,=7;—q;. 


Process D, is said to be equivalent with 


pow 1<v,<108, v, integer. For 121, let OSv;,,<108+41, v;,, integer, 
* \|such that v;,,=23v, = 23'v, (mod 108+4); 


this means, u;=v;, 121, whenever u,=v,. In particular, D, and D, have the 
same cycle, c=p—1, where 10°+1=17, and p= 5882353 is prime. 

The binary process, B,, simulates a power method, B,, modulo a number 
of the form 2”-+1. In particular, if the modulus is the Mersenne prime, 7= 
251 — 1 = 21474,83647, and if the basis of the powers, denoted by m in the following 
definitions, is a primitive root modulo z, process B, yields as many as 7—1 
different thirty-one-bit integers, or more than 66 - 10° bits [7]. Suitable values 
for m will be indicated later; for a moment, let 1<m< 2. With z as a modulus, 
the binary processes, corresponding to D, and D,, are 


1<5%,< 27, u, integer, 

a he. 1, , 

B, | : iad, i=>1; 9;, 7; integers; 0<7,;,< 2%, 
M41 = +4 


and 


B 1<v,< 2, 2, integer, 
2 


V;4, = mv;=m'r,(modz), 05 %;4,< 7; 


respectively. In B,, the 31 least significant bits of mu; form 7;, and the remaining 
leading bits of mu; represent q;. 

The purpose of the present paper is to investigate the relationship between 
D, and D,, and between B, and B,, and to indicate a few primitive roots modulo z, 
one of which may be chosen for m, in the definitions of B, and B,. First we will 
be concerned with the decimal case. 
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Decimal Case 
The necessary and sufficient conditions for {w,;} and {v,} to be identical are 
u,=v,, and 


(1) W41=7,;-G4209, +=>1. 


If (4) holds, and if u;=v;, for any +1, we get, by definition, 237,=23u4,= 
108¢;+7;; then, [23 v,/(10®+ 4)]=g;, and v,,,;=7;—9;=%,41, where [a/b] denotes 
the integer part of a/b. Thus, u;=v,, i>1, follows from u,=v, by induction. 
But if there exists u,v, such that g,>7,, we have [23v,/(108+1)]=g,—1, and 


(2) O < Vg44 = 108 + 1 — (Gy — Mr)  — (Ge — 7) = Mea < 0- 


Thus, for i=, D, fails to simulate D,, and {u,;} and {v;} are not identical in 
this case. 

If a failure: occurs, the numbers u;, 1=k+2, and the cycle of {u,;} depend 
on how D, is to be applied to negative numbers, such as 4,,,. For example, 
if in one full cycle of {v,;} there exists exactly one number, v,, such that, with 
u,=v,, we have qg,>7,, and if we specify that, for i=k+1, D, applies to 
| ¢y41|=% —%» instead of to the negative number, u,,,;=7,—4,, the cycle of 
{u,} is not c but only c/2. This can be shown as follows. If c is the cycle of {v,}, 
we have 23° =1, but 23" +14 [unless otherwise stated congruences are mod (108 + 1) 
in the decimal case]. Thus, 237? = —41, and ,, ¢,/2)=23°"v; = —v,, that is 


(3) V;4(¢/2) = 10° + 1 — y;. 


Letting i=k+1, and using (2), we get Ug114 (c/2)=% —%%=|Me11|- This means, 
if we apply D, to «, and disregard the negative sign of u,.,, we get U,434(c/2) 
instead of v,,,, that is we skip half a cycle of {v,}. This happens whenever 
i =k (mod c); hence the cycle of {u,} is only c/2 in this case. 

By the very definition of g; and 7; it is obvious that, in general, condition 
(1) is satisfied. However, exceptions cannot, a priori, be excluded since 7; can, 
occasionally, be a small number with leading zeros. 

Let OS wS108, w integer, and let 23w=10°g+7; 9,7 integers, OS 7< 10%. 
We call w a critical number if and only if g>r. Then, with u,=v,, {w,} and {v;} 
will be identical if and only if these sequences contain no critical numbers. 

As r=0 by definition, 10°¢g< 23w< 23 - 108; hence, gS23. This shows that 
q>r is possible only if r<22. We call w an exceptional number if and only 
if y<22. Then, w can be critical only if it is exceptional. 

With every g, OS ¢S 23, we can associate an exceptional number, ¢,. Two 
trivial ones are ¢)= 0, associated with g=0 and r = 0, and é,, = 10, corresponding 
to g=23 and 4) =0. For 1<q< 22, let 10°?g =23 m, + S,; m,, 8, integers, 1 Ss, S22 
(obviously, s,=-0). This means n,=[10*q/23], and S, is the remainder of this 
division. With e 9 =, + 1 we get 236, =10°¢+ (23 —s,), where 4 <r = 23 —s, S22. 
Hence, é, is exceptional. 

There exist no other exceptional numbers than the ones found so far. In 
fact, for any w+e,, 0SqS23, there exists 7 such that ¢;+1SwSe;,,—1, 
057522; then, we get 


1087 + (46 — s;) 5 23w S 10°(7 + 1) — 5,1 = 107 + (10° — s;,,). 








| 
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Thus, w is associated with g=7, and with an r>46 — s;> 24, that is, w is not 
exceptional. 
The 24 exceptional numbers, é,, OS9S23, are listed in Table 1, together 
with g and r, Among them, there are 12 critical numbers, denoted by C,,C,, 
., Cig, for which g>r. From what we have said it follows that there exist 
no other critical numbers. 


Table 1. Exceptional and Critical Numbers 























q eq +) —23¢q—10°¢ q | eq | r@) —23¢9—10%¢ 
0 ) () 12 5217,3914 22 
1 434,7827 21 13 5652,1740 20 
2 869, 5653 19 14 60869566 18 
3 1304,3479 17 15 6521,7392 16 
4 1739,1305 15 16 C, = 6956,5218 14 
5 2173,9131 13 17 | Ce = 7391,3044 12 
6 2608,6957 11 18 | C, = 7826,0870 10 
7 3043,4783 9 19 | Ce = 8260,8696 s 
8 C, = 3478,2609 7 20 | C, = 8695,6522 6 
9 Cya 3913,0435 5 21 | C= 9130,4348 4 

10 Cs = 4347,8261 3 22 = 9565,2174 2 

11 C, = 4782,6087 1 23 rm = 1,0000,0000 (8) 


Let {v{} and {v{?)} be sequences based upon two different starting numbers, 
vt and v(?), respectively, and let S® and S‘) be the sets of all numbers occurring 
in one full cycle of {v{!} and {v!}, respectively. If SYS +0, that is if there 
exists a number, v!"=v!?), occurring in both sequences, then v!!),=v!),,.... 
In this case, {v!"} and {v{*)} are cyclic permutations of each other and S = S(®), 
Thus, either S® = $2), or SMa S() —0, 

By definition of D, we can write 23v;=(108°+1)/4;+,,,, +21, A; integer. 
As ~|(108+1), it follows, from plv;, that pjv;,,. Thus, if plv,, then plv;, <1. 
In this case, {v;} has the cycle 16. Let S, be the corresponding set of numbers; 
the elements of S, are ~, 2p,..., 16%. A sequence with such a short cycle is 
not useful for practical purposes. 

If ptv,, the cycle of {v,;} is c=p—1, as indicated in [1]. In this case, the 
set of all numbers occurring in one full cycle of {v;} is equal to one of 17 sets, 
S;,7=1, 2,...,17, of c elements each, where S;>S,=0,7=+. In particular, if 
17|v,, then 17|v;, 121; the proof is similar to that for the case p|v,. Thus, one 
of the sets S;, say S,,, consists of all c multiples of.17 less than 10%. 

Any integer, v, within 1<v<108, belongs to one and only one of the sets 
Si, Sg,.--, Sy, S,. As we can check immediately, S, contains no critical 
numbers. But, if p+v,, {v;} may contain critical numbers. In particular, if 17], 
(as in the case of the starting number, v, = 4759,4118, given in [7] as an example) 
the set S,, contains exactly one critical number, C,)—9130,4348; Cy) is the 
only critical number divisible by 17. 

For 1=1, relation (3) becomes 2, (./2)=10%+1—v,. If v,=1, we get 044 (¢/2)= 
10°=C,,. Furthermore, if D, is applied to C,=3478,2609, it yields C,,. Thus, 
for v,=1, we also have v,).=C,. This shows that, for v,=1, {v,} contains at 
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least two critical numbers, C, and C,,. For v,=2, 4, 5, 7, 8, 10, 11, 14, 17, or 20, 
we get v,C, =v,)2=C;, 7=5, 2, 6, 3, 7, 4, 8,9, 10, and 11, respectively, whereas 
for v,=3, 6, 9, 12, 13, 15, 16, 18, 19, 21, and 22, v,). is not critical. 

As there exist only 12 critical numbers, but 17 sets, S;, among which these 
numbers are distributed, there must exist sets and corresponding sequences 
without critical numbers. The author has found that the sequence, {v,}, starting 
with v,=3 (or, of course, any cyclic permutation of it), contains no critical 
- numbers and, therefore, is safe for being generated by D,. This result was 
obtained by calculating, on an IBM 704, a full cycle of {u,;}, using D, with u,=3, 
together with a test, performed in each step, for the occurrence of critical numbers, 
that is negative values of (r;—g;). Notice that v,=3 is among the starting 
numbers listed above for which v,/. is not critical. 

Summarizing our results we find that, on a decimal computer, D, is faster 
than D, because D, requires no division. However, if D, is used, it is advisable 
to generate sequences without critical numbers, in order to get the cycle, c, 
predicted in [7]. Such a safe sequence is, for example, obtained if u,=3, or 
U, = 1930,9029 = 3 - 235. Sequences formed by the multiples of 17 should be 
avoided, not only because S,, contains a critical number, but also because, 
from the randomness point of view, they are worst in the sense that none of the 
sets, S, through S,,, can be characterized as easily as S,,. 


Binary Case 
Here, sequences {u,;} and {v;} are identical if and only if. with u,=v,, we have 


(4) W443 =7;+9< 7, t=>1. 


In fact, if (4) holds, and if u;=v,;, for any 121, we get mv;=mu,=2%q;+,7,. 
Then [muv,/x]=q;, and v;,,;=7;,+9;=%4,; hence, u;=v,;, 1>1, follows from 
4, =v, by induction. 

Using our assumptions on m, v;, and 7;, we have 


MU, = mMv;,=212g; + (4,+9;) <7? 


and, as 7;+9;20, g;<; thus, 7;+9;< 22. 
If there exists u,v, such that r,+ 9,22, and if we use the last result with 
t=k, we get [mv,/x|=9q,+1, and 


(5) > Vp =p + Op — WEA Oe = M1 SX. 


Thus, for i=k, B, fails to simulate B,, and {u,;} and {v,;} cannot be identical. 
An integer, w, such that OS wa —1, will be called critical if and only if, 
with mw=2%¢+r, OSr< 2%!, we have r+g2a. As wion—1, mw< 2" m, or 
qgsam—i1. Thus, r+g27z is possible only if r2>x—m-+1. A number, w, will 
be called exceptional if and only if the last condition is satisfied. Then, w can 
be critical only if it is exceptional. In a similar way as for the decimal case, 
one can show that the m—1 numbevs, ¢,=[2%'g/m], 1<qg<m—1, are the only 
exceptional numbers. The critical numbers are those e, for which r+q2z. 
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From (5) it follows that v,,,;,=%,,,—2, if u,=v, is critical. Thus 
M Vp sy = MU — MH = 2G t+ Tei — MN. 
If v,,, is not critical, we get [mv,.,/7]=(q,.1—™), and the remainder is 
(6) Yep a= 2 Geta + Tet — MH — Harr — M) =%es1 t+ Gata = Mere: 


Equation (6) says that, in the binary. case, the occurrence of. critical numbers 


‘does not cause {u;} to have a shorter. cycle than {v,}. Whenever we apply B, 


to a critical u,, and B, to v,=4,, we get u%,,,+%,,,. But, if B, is now applied 
to %.,, and B, to u,.,, then u%,.2=v,,2, provided v,,, is not critical. ‘Thus, 
if u,=v,, u;=v; for +21, except for the numbers following critical numbers. 
In particular, {u,;} and {v,;} have the 
same cycle. Table 2 

It is useful to choose a small 
integer for m because the number of 
exceptional numbers decreases with 4, —C, =12271,33513 = v,=C,=12271,33513 





Process B, Process B, 











m. We also want {v,}tohave along 4, =21474,83650+%4, = 3 
cycle, the maximum being 7—1 if “s+2 = 21=U+2 = 21 
m is a primitive root modulo z. Up = C= 15339,16891 = 0, =Cy= 15339, 16891 

The author has found that 7 is i, =21474,83649+%4, = 2 
the smallest primitive root moduloz. “k+2 = 14=%13 = 14 
This result is based upon the fol- 4, —C,=18407,00269 = v,=C3= 18407,00269 
lowing theorem [2, p.182]: Let m7 tg, =21474,83648+%4, = 1 
be prime and d|(~—1); let d= “k+2 = 7=%+2 = 7 


PT ps ... Pi', where p,, po, -.-, py are 
distinct primes. A number, m, belongs to the exponent d (mod z) if m4=1, but 


m#!?i == 4, 1<7</ (congruences are mod 2, in the binary case). 

For a primitive root, d=2—1 and m*~!=1 is trivial. In our case, /=7; 
p= 2, P2=3, Ps=7, Pa=11, Ps=31, Pp= 151, and p2= 331. Letting ¢;(m) =m"*—", 
OSt;(m)<2, the above theorem says that m is a primitive root if t;(m) +1, 
1<7S7. Obviously, this condition is also necessary. The numbers ¢;(m) were 
generated, on the IBM 704, for m< 600. As many as 136 primitive roots were found 
of which 7 is the smallest. 

For m=7, there exist three critical numbers. As 7 is a primitive root, they 
all occur in {v,}. The effect of applying B, and B, to the critical numbers is 
illustrated in Table 2. 

Summarizing, we find that, on a binary computer, B, is faster than B, because 
B, requires no division. If m is a primitive root, e.g. m=7, both B, and B, 
have the cycle 7—1=2%1--2>2-10% If u,=v,, we have u,=v,;, 121, except 
for 1=k-+-1, if u,v, is critical; in this case, #,,1=V,4,+2. 

It is important to notice that 7=2?—1. Ona binary computer, multiplication 
by 7 requires only one shift and one subtraction (just like division by 7 = 2%! — 1 
can be performed by a split of the binary dividend and one addition). This 
speeds up B, considerably. There exist larger primitive roots (mod x) offering 
a similar advantage, for example 31=25—1, 129=27+1, and 513=2°+1. 
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Choosing a larger value for m has the advantage that it reduces the number of 
successive small numbers, or of successive large numbers, 4;,, 4,49, --., Which 
tend to occur for small m whenever u; happens to be very small or very large, 
respectively [3]. 
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Bestimmung der Untergruppenverbande 
endlicher p-Gruppen auf einer programmgesteuerten 
elektronischen Dualmaschine 


Von 
J. NEUBUSER 


1. Einleitung 


In einer friiheren Note [2] wurde iiber einige Programme zur Untersuchung 
des Untergruppenverbandes beliebiger endlicher Gruppen (hinreichend kleiner 
Ordnung) berichtet. Deren Elemente wurden als Permutationen dargestellt, da 
fiir solche Multiplikation und Vergleich ohne Schwierigkeit méglich sind. Fiir 
Permutationsgruppen héheren Grades wird jedoch die Anzahl der zu speichernden 
Zahlen sehr groB, so daB auf der hier benutzten Maschine regulare Permutations- 
gruppen héchstens bis zum Grad 100 behandelt werden kénnen. Jede Gruppe, 
deren simtliche minimale Untergruppen Normalteiler sind, besitzt als einzige 
treue transitive Darstellung die regulare; daher kénnen auch viele nicht abelsche 
Gruppen verhaltnismaBig kleiner Ordnung mit diesen Programmen nicht unter- 
sucht werden. 

Die Elemente einer Gruppe kénnen oft als Worte in geeigneten Erzeugenden 
wesentlich kiirzer dargestellt werden als durch Permutationen; es gibt jedoch 
keinen Algorithmus, fiir beliebige Erzeugendensysteme mittels gegebener defi- 
nierender Relationen die Gleichheit zweier Worte in den Erzeugenden zu ent- 
scheiden. Man muB sich daher bei der Rechnung mit Erzeugenden und defi- 
nierenden Relationen auf spezielle Klassen von Gruppen einschranken. 

In den vorliegenden Programmen wird mit Normalformen von Worten in 
einem spezicllen Typ von Erzeugendensystemen fiir endliche #-Gruppen ge- 
rechnet. Dazu wird ein Programm fiir die Multiplikation zweier Normalformen 
von der Maschine selbst mittels eines ,,Programmierprogrammes” aus den fiir 
jede Gruppe verschiedenen definierenden Relationen erzeugt. 

Dieses Programmierprogramm benutzt einige Methoden, die auch beim Aufbau 
von Compilern verwendet werden [3], im Unterschied zum Compiler wird der 
Maschine jedoch nicht der Handlungsablauf vorgegeben, sondern nur eine Reihe 
von ,,statischen‘‘ Angaben, aus denen sie nach im Programmierprogramm ent- 
haltenen Regeln einen Handlungsablauf aufbaut. 

Im 2. Abschnitt werden die Erzeugendensysteme und das Rechnen mit 
Normalformen, im 3. Abschnitt das Programmierprogramm beschrieben; der 
4. Abschnitt geht auf das Rechenprogramm ein. 

Die hier beschriebenen Programme wurden fiir =2 in der Zeit vom Juli 
bis November 1960 fiir die zur Zeit am Rechenzentrum der Universitat Kiel 
zur Verfiigung stehende Z 22 (s. [2]) entwickelt, sie sollen fiir beliebige Prim- 
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zahlen auf einer demnachst dort verfiigbaren gréBeren Maschine ausgefiihrt 
werden. 

Herrn Prof. Pu. Hatt méchte ich fiir die Uberlassung einer Liste von 
Erzeugenden und definierenden Relationen von 2-Gruppen danken, die mich 
zu diesem Programm angeregt hat. Den Mitarbeitern des Rechenzentrums bin 
ich fiir ihre Unterstiitzung sehr dankbar,. insbesondere Herm Dipl.-Math. 
H. Fetscu fiir Ratschlage zur optimalen Gestaltung des programmierten Multi- 
plikationsprogramms. 


2. Zur Darstellung der Gruppen 
Eine Zentralreihe einer Gruppe © ist eine endliche Folge von Normalteilern 
N,<= G, derart daB 


(1) {1} = MCMC ++ CR, = G 
und 
{2) [M;, GB] cM; a. 


Jede endliche #-Gruppe besitzt eine Zentralreihe, insbesondere eine primzahl- 
stufige Zentralreihe, d.h. eine solche, bei der N;:N;_,;=p ist [1]. Mit deren 
Hilfe kann man fiir eire Gruppe © der Ordnung #” ein Erzeugendensysteni 


(3) {a,,@,,...,a,} =G 


finden, dessen sémtliche definierende Relationen von folgender Form sind: 


(4) g;=a;tata,a;= [] af mit 056,,,<p, i<7=1(1), 
1<min(i,f) 
(5) gi =a =f] a mit 0S6,,<p, t=1(1)n. 


<i 

Dazu wahlt man fiir 7 = 1(1) die Erzeugenden a;€ M;so, daB jeweils {M;_,, a;} =N;. 
Dann muB8 wegen der p-Stufigkeit der Zentralreihe a?€®;_, und daher von 
der Form (5) sein; wegen (2) angewandt auf min(?,7) in a;*a;*a;a, gilt (4) und 
die Relationen (4) und (5) reichen zur Definition von Cs aus. Im folgenden 
werden nur Erzeugendensysteme dieser Art benutzt. 

In einem solchen Erzeugendensystem kann man jedes Element von © in 
der Form 


(6) ama ...a% mit 056;<p 


n—1°* 
darstellen. Hat man fiir die Rechnung die Erzeugenden a; fest gewahlt, so 
geniigt es, zur Beschreibung eines Gruppenelementes die 6; etwa in der Reihen- 
folge 6,, ..., 6, anzugeben. 
Die Geumienshinamaie sind dann durch die Zuordnung 


g=a...aherd, pr +--+ 6, p9 =2(g) 


eineindeutig den p-adischen Zahlen z(g) zwischen 0 und #"—1 zugeordnet. Wie 
gleich noch:naher erlautert wird, ist es zweckmaBig, diese Zahlen in der Maschine 
zu speichern, sofern die Maschine nur gestattet, méglichst rasch aus z(g) die 6; 
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zu rekonstruieren. DaB hierzu im allgemeinen Divisionen erforderlich sind, war 
der Hauptgrund, sich bei der Benutzung einer verhaltnismaBig langsamen Dual- 
maschine auf den Fall =2 zu beschranken, bei dem die 6; unmittelbar zur 
Verfiigung stehen. 

Der wichtigste Vorteil dieser Art der Speicherung besteht genau wie bei den 
reguldren Permutationsdarstellungen (s. [2], S. 290) darin, daB jedem Gruppen- 
element eineindeutig eine durch die Darstellung dieses Elementes unmittelbar 
gegebene Nummer zugeordnet ist; man kann daher in Listen unter der ent- 
sprechenden Nummer alle spiter gebrauchte Information iiber das Element 
speichern und auf diese Weise langes Listendurchsuchen und Rechnungen ein- 
sparen. Wie das im vorliegenden Programm verwirklicht ist, wird in Abschnitt 4 
beschrieben. 

Im folgenden werden die fiir p=2 hergestellten Programme besprochen; die 
fiir andere Primzahlen nétigen Anderungen sind offensichtlich. Fiir die Rechnung 
wird als erstes ein Programm benétigt, das aus den Normalformen zweier ge- 
gebener Elemente 

g=amaem...a% und h=a*a™...a% 
die Normalform des Produktes gh mit Hilfe der definierenden Relationen (4) 
und (5) herstellt. Zunachst wird der Aufbau eines solchen Programmes erlautert. 

‘Man erhalt die Normalform von gh, indem man nacheinander die Produkte 
h,=a%h, ho=a$th,, ...,h,=ah,_,=gh auf Normalform bringt. Dazu miissen 
die Elemente a der Reihe nach an den Faktoren a%, a=, ..., afi#, ,,vorbei- 
geschoben“ und schlieBlich an den Faktor aj ,,heranmultipliziert‘‘ werden. Um 
diesen Vorgang iibersichtlich zu machen, wollen wir seinen jeweiligen Stand 
folgendermaBen beschreiben : 

Es seien h=aj... ayt und k;=alisaviss... aj++ mit 7=1(1)m Elemente in 
Normalform. Dann kénnen wir das Element 

k* =k, at k,_, am... hk, ay 
durch Angabe des Wortes / und einer Liste L von ,,Fehlstanden“ (n, )’*, 
(m—1, )’"-4, ..., (1, 2)"™1, (4 —1,m—1)"om, 1... (1, 1)% beschreiben, wobei 
fiir (7,7)!=(7,7) zu setzen und (7,7)° fortzulassen ist. Ein Fehlstand (2,7) mit 
t<j besagt, daB das Element a; in 4 zwischen ajit; und aj eingeschoben ist; 
die Reihenfolge der Fehlstande in L gibt die Reihenfolge der eingeschobenen 
Faktoren an. 

In dieser Bezeichnungsweise wird gh durch das Element / und die Liste L: 
(n, n)*, (n—1, n)*™4, ..., (1, n)® gegeben. 

Das Wort k* wird in Normalform gebracht, indem die Liste L von hinten 
her ,,abgebaut‘‘ wird. Dies geschieht durch 2 Operationen: 

Sei (1,7), 77 der letzte Fehlstand in L: 

I. Ist i<j, so wird .a;aj/ nach (4) durch a‘a;gii, ersetzt. Dadurch wird (2, 7) 
zu (t,7 — 1) und L durch die eventuell aus gi entstehenden Fehlstande verlangert ; 
h bleibt unverandert. 

II. Ist «=7, so wird a;a7i nach (5) durch ais gii ersetzt. Dabei fallt der Fehl- 
stand (j,7) fort und es treten die eventuell aus g* entstehenden Fehlstande ans 


, : “a 4 fiir e;=0 
Ende von L; in h wird e; durch €, = j ersetzt. 
O fiir &=1 
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Gibt man einem Fehlstand (i, 7) das Gewicht (j+ 1)’, so verkleinert sich die 
Summe der Gewichte in L bei jeder der Operationen I und II. g;; und g;,; ent- 
halten héchstens 7—1 Faktoren a, mit /<j. Bei I hat jeder der aus gf ent- 
stehenden Fehlstande das Gewicht ;"~", somit ist das Gesamtgewicht der aus 
(i, 7) entstehenden Fehlstande <j -7/~1<(j+1)/ da 721. Entsprechend schatzt 
man das Gesamtgewicht der bei II aus (7,7) entstehenden Fehlstande fiir 7>1 
durch (j —1) -7-<(j+1)/ ab, wahrend ein Fehlstand (1, 1) wegen a?=1 ohne 
Erzeugung neuer Fehlstande fortfallt. Da nach Definition das Gesamtgewicht 
nicht negativ wird, mu8 der ProzeB nach endlich vielen Schritten dadurch ab- 
brechen, daB in L keine Fehlstande mehr vorhanden sind. 


3. Das Programmierprogramm 


Es gibt mehrere Mdéglichkeiten, dieses Verfahren der Multiplikation zweier 
Normalformen zu programmieren: Man kann ein allgemeines Programm herstellen, 
das fiir beliebige Relationensysteme arbeitet, indem es jeweils die Liste der Fehl- 
stande fiihrt und das Element 4 abandert. Dazu muB bei jeder der Operationen I 
(bzw. II) zunachst gefragt werden, ob gfi=1 (bzw. gfi=41) ist. Ist gi--1, so 
mu8 der ganze aus gj/ entstehende Teil der Fehlstandsliste abgebaut werden, 
ist gji=1, so wird der hierzu nétige Teil des Programms iibersprungen. Nun 
ist gij--1 nur, wenn g;;=+-1 und e;=1. Dabei hangt das Ergebnis der Abfrage 
g;;=1? gar nicht von den zu multiplizierenden Elementen, sondern nur von 
dem gegebenen Relationensystem ab. Legt man daher fiir jedes Relationen- 
system ein spezielles Programm an, so kénnen in diesem alle Operationen, bei 
denen g;;=1 ist, fortgelassen werden und es geniigt, bei jeder verbleibenden 
Operation zu fragen, ob e;==1 ist. Bei einem solchen speziellen Programm braucht 
auch nicht bei jeder Multiplikation von neuem die Liste der Fehlstande gefiihrt- 
zu werden, diese fiithrt vielmehr der Programmierer beim Programmieren, um 
die im Fall e;=1 nétigen weiteren Veranderungen von / vorzumerken. Ein 
solches spezielles Programm wird kiirzer sein und wesentlich schneller arbeiten 
als das allgemeine, insbesondere bei der Verwendung einer Trommelmaschine, 
bei der Relationen und Fehlstande auf der Trommel gespeichert werden miiBten. 

Die eben einem Programmierer zugeschriebene Arbeit, zu einem gegebenen 
Relationensystem ein spezielles Programm herzustellen, ist durch die Methode 
der Fehlstandsliste iibersichtlich genug, um mittels eines Programmierprogrammes 
von der Maschine selbst ausgefiihrt zu werden. Wir wollen im folgenden dieses 
Programmierprogramm mit /7, das zu programmierende Multiplikationsprogramm 
fiir Normalformen von Elementen g und / mit M bezeichnen. 

Das Programm J] fiihrt eine Liste F, der méglicherweise auftretenden Fehl- 
stande, die nach dem ,,Kellerprinzip“ [3] gefiillt und geleert wird, d.h. es werden 
zuerst die zuletzt eingetragenen Fehlstande abgebaut. Tritt in 4 beim ,,Vorbei- 
ziehen“ bzw. ,,Heranmultiplizieren‘‘ ein Faktor a*® mit a1 auf, so muB // ein 
durch die Abfrage 6=0? bedingtes Teilprogramm zum Abbau der aus a ent- 
stehenden Fehlstande programmieren. Daher notiert // in F die aus a ent- 
stehenden Fehlsténde und in einem Parallelkeller G, parallel zum ersten von 
diesen die Adresse des durch 6=0? bedingten Sprungbefehls, dessen Zieladresse 
erst eingesetzt werden kann, wenn der zum Abbau aller aus a entstandenen 
Fehlstande bestimmte Programmteil von M programmiert ist. 
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Dies geschieht folgendermaBen: 

Das Programm J/7 besteht aus 3 Teilen, einem Hauptprogramm H und zwei 
Unterprogrammen @ und A, von denen @ das ,,Vorbeiziehen‘‘, A das ,,Heran- 
multiplizieren‘‘ programmiert. 

Das Hauptprogramm* H programmiert die Untersuchung der Faktoren des 
Elementes g=a%... a? in der Reihenfolge a?,..., a%. Fiir jeden von diesen 
notiert H einen Fehlstand (i, ) als Fy, programmiert einen durch 6;=0? be- 
dingten Sprung, dessen Zieladresse noch leergelassen wird, tragt die Adresse 
dieses Sprungbefehls als G, ein und ruft danach @® so 
lange auf, bis das zum Abbau von (i,m) nétige Teil- 





O=>fi, &, ¢ 

































































programm vollstandig programmiert ist. Sind alle 1=1(1)” 
behandelt, so programmiert H den Riicksprungbefehl von Jos he : 
M, das ja spater als Unterprogramm verwendet werden soll. (i,n) =» Fo 

Das Unterprogramm @® untersucht den jeweils letzten I 
Fehlstand F,_,= (1,7) und programmiert dessen Reduktion \ - 
mit Operation I fiir den Fall 7-7. Ist *=j, so ruft es . 
das Unterprogramm A auf, welches das ,,Heranmultipli- Aan (1)=> Go 
zieren‘‘ programmiert. Werden in diesem wieder neue , 
Fehlstande erzeugt, so mu8 A wiederum @ aufrufen. | fetat | 
Hierdurch kénnen die Programme ® und A mehrfach nena a 
ineinandergeschachtelt sein. Damit ein Programm sich : 
dieser Art selbst beliebig oft aufrufen kann, werden alle im C f>02 
Programm vorkommenden Parameter gekellert, d.h. dem C 

( t<n? z 


Programm A bzw. ® wird ein Index « bzw. » zugeordnet, 




















der in H auf 0 gesetzt und bei jedem Aufruf des Pro- I 
grammes um 1 erhdht, beim Riicksprung aus dem Pro- Rucksprung => /f 
gramm um 1 erniedrigt wird. Jedem Parameter entspricht I 

ein Keller, dessen Platze gleichfalls indiziert werden. Stop | 





Steht der Index des Programmes auf 7, so werden die 
t-ten Platze der Parameterkeller benutzt. 

Das Programm @ bendtigt nur einen solchen Keller R,, in dem seine Riick- 
sprungadresse aufbewahrt wird; es bearbeitet den jeweils letzten Fehlstand, der 
ihm durch die Zahlung von / angegeben wird. 

Ist fiir den behandelten Fehlstand F,_,=(t,7), 7-7 und g,;,-+- 1, so program- 
miert ® einen bedingten Sprungbefehl, dessen Adresse in G, aufbewahrt wird, 
bis seine Zieladresse von A eingesetzt werden kann. Parallel zu eventuellen 
weiteren neuen Fehlstinden werden Nullen gespeichert, um vorzumerken, daB 
bei deren endgiiltigem Abbau in A keine Zieladressen einzufiigen sind. Ist g;;=1, 
so verlangert ® das Programm M nicht. 

Das Programm A benétigt auBer einem Keller R, fiir seine Riicksprungadresse 
einen Keller S,, in dem die parallel zu dem abzubauenden Fehlstand (j, j) ge- 
speicherte Adresse eines noch nicht adressierten bedingten Sprungbefehls iiber 
- * In den FluBdiagrammen der Programme werden Abfragekastchen mit hori- 
zontalem ja-, vertikalem nein-Ausgang benutzt; => bedeutet ,,ergibt‘‘, [7] bedeutet 
den Inhalt des Speichers x, mit Adr(x) wird die Adresse des dem Ausgang ¥ eines 


Abfragekastchens entsprechenden bedingten Sprunges bezeichnet. Die FluBdiagramme 
der jeweils zu programmierenden Teile von M werden mit dem Zusatz > M in einem 


Funktionskastchen von JT angegeben. 


Fig. 1. Hauptprogramm 


20* 
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A hinweg gerettet wird. Vor dem Riick- 
sprung aus A wird dann fiir S,=+0 als 
Zieladresse des auf S, stehenden Sprun- 
ges die Adresse nach dem zu dieser Zeit 
letzten programmierten Befehl von M 
eingesetzt, die im FluBdiagramm ,,Pro- 
’ grammadresse“ genannt wird. 

Die Zieladresse des im von A selbst 
programmierten Teil von M auftreten- 
den bedingten Sprunges kann sogleich 
eingesetzt werden, falls gjj=1, dh. 
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Fig. 2. Unterprogramm ®D 
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Fig. 3. Unterprogramm A 


falls in keinem Fall neue Fehlstande auftreten kénnen; andernfalls wird wieder 
die Adresse dieses Sprunges parallel zum ,,untersten“‘ der neuen Fehlstande 


aufbewahrt. 
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SchlieBlich wird ein Keller /, bendtigt, in dem der Anfang der neuentstandenen 
Fehlstande so lange aufbewahrt wird, bis der zu ihrem Abbau nétige Teil von 
M durch mehrfachen Aufruf von ® programmiert ist. 


4. Das Rechenprogramm 


Das Multiplikationsprogramm M wird in einem Programmsystem zur Unter- 
suchung des Untergruppenverbandes einer endlichen #-Gruppe & benutzt, dessen 
Aufbau gegeniiber dem in [2] beschriebenen (dessen Kenntnis von jetzt an 
vorausgesetzt wird) einige Vereinfachungen aufweist, die z.T. von speziellen 
Eigenschaften von p-Gruppen herriihren, z.T. durch die andere Art der Dar- 
stellung der Gruppenelemente erméglicht werden. 

Von den Teilen I bis IV des in [2] beschriebenen Programms entfallt hier I. 
Die Normalformen der Elemente einer beliebigen Gruppe der Ordnung #” werden 
stets durch die Zahlen 0,..., ”—1 reprasentiert; eine Erzeugung der Gruppe 
eriibrigt sich daher ebenso, wie eine Ausgabe oder Speicherung einer Liste aller 
Elemente. An deren Stelle tritt eine Liste E, deren Nummern den Gruppen- 
elementen entsprechen und in der iiber jedes Element g folgende Angaben ge- 
speichert werden: 

1. seine p-te Potenz: g? 

2. sein Inverses: g™} 

3. die Nummer der von g erzeugten zyklischen Untergruppe in einer Liste Z 
aller zyklischen Untergruppen. 

Die Bestimmung der Elemente g? und g™ ist mit dem Aufsuchen und Ordnen 
der zyklischen Untergruppen gekoppelt, das in zwei Arbeitsgiangen vor sich geht: 

Im ersten Arbeitsgang wird zunachst die Liste E vollstandig geléscht, dann 
werden die durch die Zahlen 1=1,...,”—1 reprasentierten Gruppenelemente 
g;+1 der Reihe nach behandelt. Ist in dem i-ten Platz von E noch nichts 
eingetragen, so ist die von g; erzeugte zyklische Gruppe noch nicht aufgefunden. 
In diesem Fall werden alle Potenzen von g; bis zu dem kleinsten n; mit g?*=1 
gebildet. In eine provisorische Liste P der zyklischen Untergruppen wird als 
erzeugendes Element g; nebst seiner Ordnung », eingetragen, in die Liste E an 
die allen Potenzen g” mit (m, p)=1 entsprechenden Platze jeweils die Elemente 
(gi")? und (g7")"1, die aus der Liste der Potenzen von g; abzulesen sind, sowie die 
Nummer der von g; erzeugten zyklischen Gruppe-in der provisorischen Liste P. 

Im zweiten Arbeitsgang wird aus der Liste P eine nach den Ordnungen der 
zyklischen Untergruppen geordnete Liste Z hergestellt, die dieselben Angaben 
wie P enthalt. In der Liste E werden die provisorischen Nummern der Unter- 
gruppen durch deren Nummer in Z ersetzt, die ja gleich dem Exponenten der 
Kennzahl (s. [2]) der von g erzeugten Untergruppe ist. Durch die Speicherung 
von g? und der Kennzahl der von g erzeugten Untergruppe kann in IV auch 
die letzte der vor der Bildung einer neuen Untergruppe nétigen Abfragen durch 
Vergleich von Kennzahlen erfolgen. 

Teil III des Programmes ist nur wenig verandert, wahrend in IV zu Beginn 
der Bestimmung einer jeden neuen Schicht 2), zunachst durch ein zu III analoges 
Programm die in 2, enthaltenen zyklischen Untergruppen aus der Liste F heraus- 
gesucht werden, was weniger Zeit benétigt als ihre Erzeugung als Erweiterung 
von Gruppen aus 2,_,. In der Merkzahl wird fiir eine zyklische Gruppe nur 
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ein Element gespeichert, damit spart man weiter Zeit beim Erzeugen einer 
Untergruppe aus ihrer Merkzahl und beim Bilden des Normalisators.: 
Mehrfach wird in IV davon Gebrauch gemacht, daB jede maximale Unter- 
gruppe einer endlichen -Gruppe normal ist. Es geniigt z.B. aus diesem Grund, 
beim Bestimmen der maximalen Untergruppen einer Gruppe U¢€ 2,, nur die 
Schicht 2,_, zu durchsuchen. Eine weitere niitzliche Anwendung dieses Satzes 
ergibt sich wie folgt: Ist UC 2,, VE2,,, und UC, so ist Ua BV somit V/u 
minimale Untergruppe von N,/U. Mit U werden alle Konjugierten von U be- 
stimmt, man kennt daher @©:Ny und damit Ng:U=#/’. Nun hat eine Gruppe 


der Ordnung #’ héchstens ot minimale Untergruppen und diese Zahl wird 


z.B. von elementar-abelschen Gruppen erreicht. Sind schon eine Reihe von 
Untergruppen aus 2;,, bekannt, so wird zur Zeitersparnis fiir jeden Reprasen- 
tanten U¢€ 2, gefragt, ob bereits diese Zahl von Obergruppen von U aus 2). 
bekannt ist. Ist dies der Fall, so kann eine weitere Suche unterbleiben. 

Durch die beschriebenen Abanderungen und einige technische Verbesserungen 
gegentiber den in [2] beschriebenen Programmen wird die Rechenzeit auf etwa 
den vierten Teil heruntergedriickt. Eine Gruppe der Ordnung 128 mit 514 Unter- 
gruppen und 334 Klassen konjugierter Untergruppen wurde in 8 Std, eine andere 
der gleichen Ordnung mit 386 Untergruppen und 224 Klassen in 5,5 Std durch- 
gerechnet. 

_ Damit wird es méglich, auch Gruppen héherer Ordnung zu behandeln. Wich- 
tiger erscheint jedoch, besonders im Hinblick auf die Benutzung einer schnelleren 
Maschine, die Einsparung an Speicherplatz, der nicht mehr der entscheidende 
Faktor ist. Dariiber hinaus ist dieses Programm. zum Rechnen mit Erzeugenden 
und definierenden Relationen als Vorbereitung zur Behandlung von Erweiterungs- 
fragen gedacht. 
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Truncation error in interpolation and 
numerical differentiation 
By 
P. C. CHAKRAVARTI 


0. Introduction 


The two most frequently used expressions for the “remainder term’’ or 
“truncation error’? in Newton’s (or for that matter, Lagrange’s) general n‘” 
order interpolation formula 


f(®) =f (ao) + (¢ — ao) f[a@o, a] +--- 


(0.1) 
set (¢ — ay) (t — a) ++» ( — Ay_3) P40, M1, ++ nu] + R, (2) 
are 
(i) R(t) = (€ — ap) (t — a) «++ (t — ay) Fao, M1, «+2 Ans f] (0.2) 
where the i™ divided difference f[a), a,,...,@;] is defined by the recurrence 
relation 
Pe, a) me Ll a Alt fd 
f ta = f(a); 
and 
es oe os #yt for (6) 
(i) Ry =¢— a) ¢— a) --- (¢—a,) PEE (033) 


where € lies somewhere within the interval J limited by the largest and the 
smallest of a), a,,...,a@,, and ¢. 


It has also been shown that RY) (t) = 3 R,,(¢), the truncation error in the 
calculation of zi f(t) by differentiating the n order interpolation polynomial 


above, can be expressed by 





ROO = > eect ae Ea) a) Ea} fH) (0.4 


where each £; lies within the interval J as defined above. 

This expression for R”) (¢) is valid for all ¢. If, however, ¢ lies outside or at 
one end of the interval limited by the largest and the smallest of the tabular 
values a), @,,...,@,, then it has been shown * that 

r d’ f"*) (n) 
(7) (#) — —_ — fae ee ee 
RY) =F A(t — a9) (¢— a) + (t= a) }- (0.5) 
where 7 lies in the interval J. 





* For these and other forms of remainder terms see J. F. STEFFENSEN: Inter- 
polation. New York 1950. 
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The advantages and disadvantages of these error formulae may be summarized 
as follows: 

(i) The expression in the identical relationship (0.2) cannot be directly cal- 
culated (unless f(t) be known) and so one must be contented with a few sample 
values; 

(ii) the form (0.3) can in many cases be ascribed an upper bound, and would 
thus, in such cases, provide an upper bound for the error in using (0.1). But 
when the interval J extends right up to a point near a singularity of f(t) this 
formula may give rise to over-pessimistic upper bounds for the error and so fail 
to serve any useful purpose; 

(iii) the formula (0.4) is quite cumbersome and requires the knowledge of 
derivatives of f(t) of orders (n+ 1), (n+ 2), ..., (m+7+1); 

(iv) the fornula (0.5) is valid only if ¢ is outside or at one end of the tabular 
range, and therefore is not applicable to the most practical and widely used 
central difference formulae when used in the crucial region; 

(v) the formulae (0.4) and (0.5) would also have the drawback mentioned in 
(ii), when the interval J extends up to a point near a singularity of /(é). 


The following is an attempt to overcome some of these disadvantages. 


1. Main Theorem 

Theorem. If two functions {(x) and g(x), continuous in the interval J, 

limited by the largest and the smallest of a), a,,...,a,, and ¢, are such that: 

(1) the functions /’(x), /’’(x),..., f(x), and o’(x),...,p%~"(x) are all con- 

tinuous in the interval J, and (2) the function f+ (x) exists everywhere in the 

interior of J and the function g"*!—"(x) is nowhere zero in the interior of J, 
then 

‘ - (n+1) 
RY (t) = (t= 9) (6 t) = (6 = Oye) PL Osos nef] Siem gy (14) 


where & lies somewhere in the interior of J, and the «,; are as defined below. 
Proof. From (0.1) we have 


R,,(*) = f(x) — {f (ap) + (% — a) f [40,4] +°>: | 
cvot'(% ar ay) (x a a,) 5 oye (x ‘oo a,—1) fla, ee a,)}- 
Then since R,,(x) vanishes for the (n+1) values Gy, %,..., 4, of x (cf. equation 
(0.2)), and R,,(x), R,' (x), ..., RY (x) are all continuous, it follows (by successive 
applications of Rolle’s theorem) that R(x) vanishes for at least (n+1—7) 


values, %, %,---,%,—,, Say, of x within the interval limited by the largest and 
the smallest of a), a,...,a,. Now let 


P(x) = Ry? (x) — K [ p(x) — {9 (0) + (* — %0) 9 [tt9s 04] + 
hd (x — Op) (x — %) an (x Gy ~=3) P [Oo U1, +++, Cy p]}], 


and choose K so that Y(t) =0, whence 


K oe 








~~ p(t) —{p (ae) + (t— aq) P [H9, %) + --> + (t—ap) + (£—aty—p—y) Plo My ---y yy)’ 


2) 

















Truncation error in interpolation 281 


it being assumed that the denominator is not zero. Then Y(x) vanishes for the 
(n+2—r) values %, a, ...,%,—,, and ¢ of x. Therefore ¥/("*1—” (x) vanishes for 
at least one value & of x within the interval limited by the largest and the smallest 
Of %, %,---,%,—,, and ¢, Thus, since the only surviving terms in Y"+1!-") (x) 
are {"*) (x) and —Kg*1-" (x), we have 


0 = Winti-") (é) = fin+1) (é) en K p*+1-") (é) : 
And, using (0.2) and (1.2) above we get, finally, 
(n+1) 
RE (t) = (6 — aa) (6 — ty) +> (6 — pr) PL 09 as +1 nest] leery 


where & is in the interior of J. 


If in the above we let ¢ equal any of the values «,;, (¢=0, 1, ...) the equation 
retains meaning and gives the exact value of R(t). Therefore this part of the 
restriction imposed on the denominator of K in (1.2) can now be removed. 

Here we should note that whereas /(x) is the given function, g(x) may be 
any function we may like to choose, subject, of course, to the restrictions noted 
above; and ¢ is completely unrestricted as regards its position. 


Corollary. When r=0, (1.1) can be written as 
f[@o,@,.--, Qn) _ f™ (&) ‘4 
P(A, 4,,...54,] p™(E) * (1.3) 


This is, in fact, the most general form of the generalised mean value theorem of 
CAUCHY. 








‘2. Two Useful Special Formulae 
Two interesting special cases of (1.1) are obtained by choosing g(x) to be 
(I) x**?~-" and (II) 1/x. 
(I) When p(x) =x"t1-", we get g*1-" (x) =(n+1—7)! and 


P [eqs Uy, +++, yy, X] = 1. 
Therefore equation (1.1) becomes. 
‘ m+D (gE 
RY) (¢ wad Xo) (¢ and 0%) sie -(t — &, — r) ee : (2.1) 


When r=0, this formula reduces to the well known form (0.3) above. 


In the general case this error formula (2.1) gives us a very useful upper 
bound for the truncation error in the calculation of 7" order derivatives which 
can be applied to the crucial middle zone when using central-difference formulae. 

It should be noted here that although finding the actual values of %, a ,,...,%,_, 
is usually impracticable, it is, however, possible to find a reasonable upper bound 
for the polynomial (¢ — a») (¢—«,) --- (¢—«,_,) for any particular value of ¢. The 


method for finding such an upper bound is discussed in section 3. 


(II) Take p(x) = i. Then gti (x) = i halen A OS , and 


ante-r 


—1)*ti— r 
Oe a 4) = 4 —— 


Ap Hy .-- yy * 
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Consequently (1.1) becomes 


")(g) — (t=) (¢—o4) «°C atu) | ETP”: fF (E) 
RO’) = a ay , (n+i—r)! ° 





(2.2) 


In an example in section 4 we shall show how this form may in some cases give 
a considerably reduced upper bound for the error. 


3. Practical Estimates for the Upper Bound 


If we arrange the tabular points in ascending order, so that a,<a,<---<4a,, 
then it is easily seen (by successive applications of Rolle’s Theorem) that each 
a; of equation (1.1) must lie within the interval 


A,< 4; <Aj4,, 4=0,1,...,(n—7). 


Therefore in the (n+-1—r) degree polynomial (¢—« 9) (¢—«,) --- (¢—«,_,) the 
absolute value of each factor (¢—«,) is less than the greater of |¢—a,;| and 
t— A; 45]. 
, sl given ¢ and a,, the required upper bound is easily obtained by select- 
ing the greater member of each of the (n+1—r) pairs |¢—a,| and |t—a,.,| 
and forming their product. 

A convenient working rule is obtained if we notice that this upper bound 
is equal to the product of the (n+ 1—~1) largest factors out of the (n+ 1) factors 


n 
in I] |(¢—a,)|. 

As an example, let the tabular points be a,+h,;, i1=0,1,..., m, and t=4@p, 
the mid-point of the tabular range. Then following the above rule it is easily 


seen that 
(n—r) p2m+i-r. (m!)2 


I] ¢-«)| == (Sy if r odd, 








2 


m+1—r 
_ ee —, frown {r>0). 


| EN)! 


4. An application of the formula (2.2) 


If we try to evaluate cosec 0.041 from a six-figure table of cosec x for 
x=.01(0.01) — by using the Gauss formula for »=3,5, and 7 and compute 
error estimates as given by the formulae (2.1) and (2.2) and set these out against 
the actual error we arrive at the following table: 














Table 
—_ er as — ae —" | Actual exter 
| | 
3-point 24.3569 +0.0402 | + 0.1222 + 0.0402 
5-point 24.4105 — 0.0134 — 0.6172 | — 0.0134 
7-point 24.3799 +0.0172 + 355.1140 | +0.0172 





st Peal taint 











Ne eel heer alle! oc RA els 


ee 


Truncation error in interpolation 283 


The success of the formula (2.2) here derives from the fact that 





pay, 5 Le vier a 
cosec x = <(1+ S xt 5 +8 a 


wo +-- , 
so that the formula (2.2) gives, in effect, an aera correction term of very 
high accuracy. 

Formulae similar to (2.2), but of greater cdmnplexity can also be derived to 
deal with the cases when the function has other types of singularities, and at any 


point x= %p. 


5. An application of the formula (2.1) 

As an example of the use of formula (2.1) we take /(x)=sinx and calculate 
f’’(0.55) from a ten-figure table of sin x with x= 0.3(0.1) —. Using the appropriate 
central difference formulae for the mid-interval point we get, neglecting differences 
of order six and higher, 

f’(0.55) = — 0.52268489. 


By comparison with the actual value we have that the truncation error is 
0.234 x 1075, 

In using (2.1) we have the tabular points aj +h;, 1=0, +1,..., +(m—1) 
and m; t=a,+h/2 the mid-point of the tabular range. Following the method 
of §3 we deduce that 


ffe-s| <u) {Seana y 








if y even, y >0. Similar expressions are found for r odd. Here r=2 and m=3 
and the error bound comes out to be 


| RY’| < 0.42 x 10-4. 


This leads to some over-estimation as is to be expected from the nature of the 
formula. 


6. Conclusion 
The formula (1.1) includes and therefore supersedes the formula (0.3), and 
provides more general expressions in place of those formulae which are derived 
from (0.3). For. instance: the formula (0.5) for R(t) is replaced by 


RE (t) = FE A(t — a) (t — a4) + (= 4) 9L0» s+» nt} Seen (6.1) 


In the case y=1, this formula, like (0.5), is valid at internal tabular points as 
well as at all points outside the tabular range. The error terms in integration 
formulae can be similarly generalized. 


Summary 
A bound is obtained for the error incurred when derivatives are found in 
terms of differences. The method depends on the use of an auxiliary function, 
and it is shown that by appropriately choosing the auxiliary function one may 
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considerably improve the estimate of the error, especially in the neighbourhood 
of a singularity. The result, in addition, provides an alternative form for the 
remainder term in interpolation formulae, and it can also be regarded as an 
extension of Cauchy’s generalised mean-value theorem. 
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Uber zwei Algorithmen zur Interpolation 
mit rationalen Funktionen* 


Von 
JOSEF STOER 


1. Allgemeines tiber die Interpolation mit rationalen Funktionen 


1.1. Formulierung der Aufgabe 


Gegeben sei eine Menge von ,,Stiitzstellen“ und ,,-werten“ (&;, /;),7=0, 1, 2,.. ; 
gesucht ist eine rationale Funktion 
Fs” (x) Agta, X+ ++ +a, ** 4, 


OP" (2) = ———_— = 
ha Qu” (x) bo +b, ¥+ ++ +b, x” 





mit O*” (é;) =f; fiiri7=s,s+1,...,s++y. Dabeisoll das Zéhlerpolynom Pm? (x) 
héchstens den Grad wu, bzw. das Nennerpolynom Q#:”(x) héchstens den Grad » 
haben. Wir verlangen ferner, daB P”” und Q*” teilerfremd sind, und setzen 
ohne Einschrankung voraus, daB die Stiitzstellen €; alle voneinander verschieden 
sind, und daB fiir die Stiitzwerte /; = 9 gilt : 

Wir bezeichnen die gestellte Aufgabe kurz als die Aufgabe A”’. Es ist nun 
das Ziel dieser Arbeit zwei Algorithmen anzugeben, um zu gegebenen (6,, /;) 
folgendes Tableau von rationalen Ausdriicken rekursiv zu konstruieren 


ol u—2,v—1 < 
D . @e-1,7-1 
2,»—1 ’ 1 
yu —2,¥— ul, 
On @-e-1,"-1 o u,v 
: (1) 
@e -2,¥-1 s+1 @e-i,» s 
s+2 @e-1,y-1 s+1 
+2 
@e-2,"—-1 ” 
. s+3 


welches mit dem gewiinschten ®*” endet. Beide Verfahren, deren Rekursions- 
formeln wir iibrigens ohne Hilfe von Determinanten beweisen, werden zum SchluB 
mit den bekannten Verfahren von WynN [16] und THIELE [1/4] bzw. TUCKEY 
und THACHER [15] verglichen. 





* Auszug aus der Dissertation D 77 zur Erlangung des Doktorgrades bei der 
Naturwissenschaftlichen Fakultét der Johannes Gutenberg-Universitat zu Mainz. 
Der Verfasser méchte besonders herzlich Herrn Prof. Dr. F. L. BAvEr fiir seine wohl- 
wollende Unterstiitzung danken, die zum Entstehen dieser Arbeit beitrug. 

** Im folgenden bedeuten groBe griechische Buchstaben ®, ¥ stets rationale Aus- 
driicke. Obere Doppelindizes, wie yw, vy in ©.” zeigen an, daB der Grad des Zahlers 
bzw. des Nenfers von #,” héchstens yw bzw. » ist. Fiir Zahlerpolynome wird der 
Buchstabe P, fiir Nennerpolynome der Buchstabe Q reserviert. P#” oder auch P¥ 
bedeuten, daB das betreffende Zahlerpolynom héchstens den Grad yw hat (analog bei 
Nennerpolynomen: Grad Q4"*<yv, Grad Q” Sy). 
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Bevor jedoch diese Algorithmen in 2.1 und 2.2 hergeleitet werden, werden 
im Anschlu8 an einleitende Satze und Definitionen (1.2) gewisse Entartungs- 
falle der Tableaus (1) in 1.3 untersucht. 


1.2. Erste Satze tiber Lésbarkeit und Lésung der Interpolationsaufgabe 
Die Begriffe und Satze in diesem Abschnitt sind bekannt (s. z.B. [5, 7, 8, 9]). 
Die Satze werden daher ohne Beweis zitiert. 
Die Aufgabe A*” fiihrt sofort auf das lineare homogene Gleichungssystem 
fiir die w+»+2 Koeffizienten (a, a, ..., @,, 9, b;,..., 6,) von DY” (x): 


PCE) —f- OE) =0, t=8,8+4,...,8+u+r (2) 


oder 
Ag +a é;+--- +4, 84 — fi, (bo +0, +--+» + 0,8) =0 fiir t=s,s+1,...,s+u+. 


Dieses Gleichungssystem nennen wir das System S*’. 
Definition 1. Zwei rationale Ausdriicke ®, (x) := 1(*) 


 Q1(#) 
heiBen gleich, ®,(x) =@,(x), genau dann, wenn es eine Zahi a=+0 gibt, so daB 


P,(x) =a-P(x), Q(x) = a- Q(x) *. 


Die Ausdriicke heiBen aquivalent, ®, (x) ~@®, (x), genau dann, wenn P, (x)-Q,(x) = 
P,(x)-Q,(x), d.h., wenn man sie durch Kiirzen ineinander iiberfiihren kann. 

Man zeigt leicht, daB die Relation ,,~‘‘ eine Aquivalenzrelation ist. Wir 
sagen, 4quivalente Ausdriicke erzeugen dieselbe rationale Funktion. Als Repra- 
sentanten fiir diese rationale Funktion nehmen wir denjenigen rationalen Aus- 
druck ® aus einer Klasse von aquivalenten Ausdriicken ®, dessen Zahler- und 
Nennerpolynom teilerfremd sind. 


Zahler- und Nennerpolynome von @ sind also nur bis auf einen gemeinsamen. 


konstanten Faktor bestimmt. 


Wir sagen, daB der rationale Ausdruck ®“” (x) Lésung des linearen Gleichungs- 


systems (2), also von S*” ist, wenn seine Koeffizienten eine Lésung von (2) 
bilden; der rationale Ausdruck ®*”(x) heiBe Lésung der eingangs gestellten 


Interpolationsaufgabe A“’, wenn p"” (E,) =/; fiir +=s,...,s+u+». 
, e a; , #¥+ +++ +4; 9 

Rationale Ausdriicke ®,(x) := ~*~ -—_® 

big #7 + ++ +; 
hangig heiBen, wenn ihre Koeffizientenvektoren (a; ,,, ..., 4,9, 9; y» --+» 5; 9) linear 
unabhangig sind. Analog werden die Begriffe lineare Abhangigkeit, Linear- 
kombination erklart. 

Wenn der rationale Ausdruck ® Lésung der Interpolationsaufgabe A‘” ist, 
so ist er auch Lésung S*”. 

Die Umkehrung bereitet Schwierigkeiten. Zunachst gilt der 

Satz 1 (vgl. [8]). S“” hat stets nichttriviale Losungen. Jeder solchen Lésung 
entspricht genau ein rationaler Ausdruck ®*:”(x), der Lésung von S#” ist. Wenn 
®, (x) und ®,(x) zwei Lésungen von S“” sind, so gilt stets ®,(x) ~@®,(x), d.h. 
‘sie bestimmen dicsclbe rationale Funktion. 


, +=1, 2 mégen linear unab- 





* Fiir Polynome hat = natiirlich die konventionelle Bedeutung: Gleichheit der 
Koeffizienten. 





Haba cancer 








et ast eater 
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P(x) = For sei nun eine Lésung von S*®”*, Wenn wir nun ein festes &,, 
mit 7€ {s,s+4,...,s++y} betrachten, sind zwei Falle méglich. 


1. Q’(&;) +0 
oder 2. Q’(&,) =0. 


Im ersten, gewOdhnlichen Fall folgt sofort P(E) = GE, = f; weil Q”’(x) keinen 
Teiler der Form x —é; hat. 

Im 2. Fall folgt wegen (2) zunachst P*(é;)=0, d.h. P“(x) und Q”(x) haben 
einen gemeinsamen Linearfaktor x—£&;. Es ist zwar wie immer D~D aber 
nicht mehr ©=@. Ferner sieht man aus der Form des Gleichungssystems S“#” 
sofort, da8 ® nicht von /; abhangt. Fiir jede andere Wahl von f; ist ® ebenfalls 
Lésung von S*”. Ist also zufallig D(E,) =20 oder D(E,) + f;, so ist zwar S*” 
nach wie vor lésbar (z.B. Lésung -=®), aber nicht mehr die Interpolations- 
aufgabe A”. Man nennt dann (;,/;) einen ,,unerreichbaren Punkt‘‘. Nennt 
man noch ein System von k+1 Punkten (§;,» fi.) ausgeartet, wenn ein ®”” 
existiert, mit m+n<k und ®™"(&;) =f, fiir alle g (d.h. wenn die Stiitzstellen 
und -werte einen rationalen Ausdruck von niedrigerem Zahler- und Nennergrad, 
als gewohnlich notwendig ist, bestimmen), so gilt 

Satz 2. I. Es sei Rang S#’=yu+y-+1 (Héchstrang) und ©” eine Lésung 
von S#”, Wenn jetzt 

a) OH" = gu. so treten keine unerreichbaren Punkte auf und ©” ist Lésung 
von A”, 

Wenn dagegen 

b) De” + Des”, dann ist gu weder eine Lésung von S*” noch von A’. 
Der gréBte gemeinsame Teiler des Zahler- und Nennerpolynoms von ©” hat 
die Gestalt 

r(x) = (x —&;,)- (x —&,,)... (x —&,), rai, 


wobei die §,, verschieden sind und alle unter den Stiitzstellen &;,i=s,...,s+u+yr 
vorkommen. Jeder Nullstelle €;, von r(x) entspricht genau ein unerreichbarer 
Punkt, namlich (&;,» fi.) und umgekehrt. Das System der erreichbaren Punkte 
ist ausgeartet. 

II. Ist Rang S#”’<y+v+1 so gibt es mindestens ein ®*” mit O#’+= gu”. 
Es gibt genau dann keine unerreichbaren Punkte, wenn eine Lésung ®*” von 
S#” existiert, fiir die OY” = gu.” gilt. Wenn (é;, /;) ein unerreichbarer Punkt ist, 
dann ist jede Lésung ®” durch den Linearfaktor x —&; kiirzbar. Das System 
der erreichbaren Punkte ist in jedem Fall ausgeartet. 


1.3. Na&heres Studium von singuldren Fallen 


Wir beschranken uns im folgenden hauptsachlich auf den Fall, daB S*” den 
Héchstrang w+v+1 hat, einmal, weil in diesem Fall Satz 2 klare Auskunft 
iiber die Beziehungen zwischen den Lésungen von S#” und A” gibt; und weil 
wir schlieBlich in den Satzen 3 bis 6 leicht nachpriifbare Kriterien geben kénnen, 
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mit deren Hilfe man sofort am Verhalten der beiden anzugebenden Algorithmen 
eine Verletzung dieser Bedingung nachweisen kann. 

Um die Ausartungsfalle der Algorithmen in den Griff zu bekommen, benétigen 
wir einige Satze iiber Tableaus (1), wie sie in 1.1 definiert wurden. Diese Satze 
setzen uns in die Lage, aus 4uBeren Eigenschaften solcher Tableaus, wie Gleich- 
heit oder Aquivalenz benachbarter Glieder, auf innere Eigenschaften der be- 
teiligten ®”, wie Auftreten von unerreichbaren Punkten, Verletzung der Héchst- 
rangvoraussetzung, zu schlieBen. Es werden in diesem Zusammenhang drei 
Probleme untersucht: 

1. Wann ist Rang S#’<y+v+1? 

2. Wann sind benachbarte Glieder von (1) gleich ? 

3. Wann sind benachbarte Glieder von (1) aquivalent aber nicht gleich ? 
Wir geben zuniachst einen Hilfssatz an: 


Hilfssatz 1. Sé” habe Héchstrang, ®#:”(x) = aut Dann gilt nicht gleich- 
zeitig Grad P<y und Grad Q<y». 

Denn ware Grad P<y und Grad Q<y so gabe es eine zweite von ®*” linear 
unabhangige Lésung von S*”’, namlich ®(x) = ayy mit beliebigem a. 

Wir gehen nun an die Beantwortung der oben gestellten Fragén. Fiir Problem 

1. gilt: 

Satz 3. (s. Fig. 1). Folgende Aussagen sind aquivalent: 

a) Rang S#’<w+v+1. 

b) Es gibt eine gemeinsame Lésung von S#—h’—?, Sérhy}, Suvhent, Suche 
und S#7}" (und damit von S#”): 


u—1,v— 1 u—1le—-1 — ghu—1,r— —1 — a 1, — ly 
@» ® = @ Durty, 


s+1 s+2 
Der Satz bleibt richtig, wenn man die Indexkombination (u — 1, v) durch (uw, vy — 1) 


ersetzt. 
u—i,v—1 u-i,v u,v 


a 

= 

—_— 

=— 
ae 
= &?) 
aes 

= 


Fig. 1 


Beweis. Aus b) folgt zunachst, daB bereits @“—'’—* eine Lésung von S#” 
ist, die die Folgerung von Hilfssatz 1 nicht erfiillt; also trifft die Voraussetzung 
des Hilfssatzes nicht zu, d.h. es ist Rang S“’"<p+v+1. 

Umgcekchrt tolgt aus a) auch b). Denn nach Voraussetzung gibt es mindestens 


2 linear unabhangige Lésungen von S*’, ®,(x) = Az - und ®,(x) = nae 

i(% Se (x 
seicn 2 solche Lésungen. Die angegebenen Gradzahlen o,, 0; scien exakt. Ange- 
nommen, ¢s sci 0,09. O.B.d.A. sei 0,<@.Sy. Aus Satz 1 folgt o,<0,Su. 


Also ist ®,(x) cine gemeinsame Lésung der Systeme S¥—»?—?, S¥rbr}, Suc henh 


Suohy, Seb. Wenn 0, = 09, so kénnen wir durch 1 ineaxhombinetion einen Aus- 


be 








ois 





—_ 
te. TUR ict ites se 
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— P(x) _ APM) +A, P(e) ,. 
druck ®(x) =. = : fin 
Olay = a OR) +A OF) 
der ebenfalls wie oben S%” lést, also wegen der Grade eine gemeinsame Lésung 
von, Sp-49-*, Serbo, Serbo, Se-h?, Sek? iaty 

Der nachste Satz gibt Bedingungen fiir die Gleichheit benachbarter Glieder 
von (1) an: 

Satz 4. Es seien die Range von S#~)’, S#—h”, S#* maximal. Dann ist 
OY" (x) = Of-*"(x) genau dann, wenn #—»*(x)=@¥—}"(x). Ebenso ist 


Dy” (x) = Oe }”*(x) genau dann, wenn ®4-**(x) = O4—}"(x). Der Satz bleibt 








den mit Grad P<g,, Grad Q<a,, 


richtig, wenn die Indexkembination (u—1,¥v) durch (u,»—1) ersetzt wird 
(s. Fig. 2). ui,» BY 
o%. 
£5@ 
eo 
Fig. 2 


Beweis. Aus ®4—-+" = @47}” folgt sofort, daB ®*—»” auch eine Lésung von 
S” ist, also wegen der Rangvoraussetzung gleich der Lésung ®*” von S*” ist. 
Wird dagegen DY” = @¢-»” vorausgesetzt, so folgt, daB ®*” auch S#7}’ 
lést, also wegen der Range: ®#7!)"= @¥-4”, Den Rest des Satzes beweist man 


auf dieselbe Weise. 
Es bleibt noch die 3. Frage, unter welchen Umstanden benachbarte Glieder 
von (1) zwar 4quivalent, aber nicht gleich sind. Hier gilt 
Satz 5. Die Range von S#”, S#*,, S¥éoh’, Serb? und S#7}’—? seien maximal. 
Dann sind folgende Aussagen dquivalent : 
- bl FAY” + (z#—€,) 
1? se ly v 1,» bP ce OPS $s 
a) oF Ya ’ DY + Ya d) o¢ sca Quah. (x—&,) 
a La — - 
b) On wOerh, Ort Orbe) Oty, = HE faewteed 
/ Oot’ 7 (4¥—E 5 4542) 


c) Me Oey, OE OE 8) OE OE ms eb. 


In diesem Satz darf (u—1, ) durch (u,v —1) ersetzt werden. 
Fig. 3 zeigt den ,,Stern‘‘, der nach diesem Satz gleichzeitig geltenden Gleich- — 


heiten und Aquivalenzen in (1): 
p-i,v—1 " p-t,» “ay 








* In Skizze 3, 4ff. wird der einfacheren Scl.:reibweise halber die Relation ~ in 
dem eingeschrankten Sinn gebraucht, naimlich daB sich ~ und = gegenseitig aus- 
schlieBen. ° 

Numer. Math. Bd. 3 21 
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o 


Wir zeigen zundchst a) > d) -f) a). Der Beweis fiir den Zyklus b) > 
e) +f) >b) kann aus Symmetriegriinden auf dieselbe Weise gefiihrt werden 
und eriibrigt sich also. Da aus a) und b) unmittelbar c) -folgt, braucht schlieB- 


lich nur noch c) — f) gezeigt werden. 


1. a) >d): Sei also zunachst’ O“’~@4~)" und "= O4-}", Falls Grad 
Qeo’<» ist der Ausdruck 
D(x) = 


Feat? ($s) 
OnPT: (7—&,) 


eine Lésung von S#”, also wegen der Rangvoraussetzungen: ®(x) = ®*"(x). Im 
Fall Grad Q#7)’=» folgt zunachst aus der Voraussetzung ®+’~@47h” die 
Relation: 
Pe’: One” = Pyar’: Qe. 
Daraus ergibt sich: 
Grad P”” + » = Grad P45)” + Grad Gm”. 


Nach Hilfssatz 1 ist entweder Grad P“”=y oder Grad Q#:”=y». Also im ersten 
Fall w+v=Grad P45"’+ Grad Qt’Su —1+¥», ein Widerspruch. 

Der 2. Fall filhit zu: Grad P””=:Grad P45". Das heiBt aber, daB ®*” eine 
Lésung des Systems S“7})" ware, also ®” = 4)", wiederum ein Widerspruch 
zur Voraussetzung. - 

2. d) +f): Aus der Voraussetzung 
Pea” " (~—&,) 


ta . (x—&) 





4 (x) = 


folgt sofort nach Hilfssatz 1: Grad Q¢7}"<y, Grad Pty>’=u—1; d.h. Ber” 
ist auch Lésung von S#7}"-? und S#7}-’-? und es ist: 


—1,» __ —1,9—-1 __ —1,»-—1 
Ge — ge = Gea }e-1, 


s+1 


3. f) + a): Setzt man f) voraus, so ist 


F’’: (#—§) 
sri”: (*—§;) 
eine Lésung von S#’, also wegen des Ranges P(x) = @*"(x) ~@e-}"(x) und 
Of = ON”. . 

4. c) +f): Wenn namlich O+" ~ @%", und gleichzeitig OY’ = OY”, ist, so sind 
o*” und ®#’, linear unabhangig. Also gibt es eine nichttriviale Linearkombi- 
nation 


@(x) = 





Ay Py? + dy Pip =: PA" (x) 
Ay Qe? + Ag OM", =: Q’-* (x) 
mit Grad P*-*<y—1, Grad Q’-!'<»—1. AuBerdem erfiillt ®(x) = 


alle gemeinsamen Gleichungen der Systeme S#” und S#’,, also das Gleichungs- 


system S#7}” und somit wegen der Grade von P*—* und Q’-? auch die Systeme 


Sey’? und S#7}"-!. Damit ist f) gezeigt und Satz 5 vollstandig bewiesen. 


Pe-1(x) 











th TA itis 5.2 088 
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Fir spater beweisen wir noch den 


Hilfssatz 2. Sei Di = A mit Pe (2) = Pre xo, QM" (x) gle 4... 
Dann gelten folgende Identitaten: 


1. DO" (x) — Genter gy an BOT ORM BEE Op" 








Qu. Qu-1 
aie k A (~—&,) (*—&§, 41) eee (76... 040-2) 
ae Quy. Qu-1 


mit k,= pe’ - ae wad 
oe oY” (x) — our *(x) =hy- (*—&544) ° = ras = sn 
mit k,= py’. ger’. 


3. DH” (x) a ou, (x) = hy: (*—§541) ae a = -(%#—§s4u4y) 


mit hy= ph". get, — Pe: 9". 
Der Satz gilt auch fiir wu, »—1 statt ~—1,¥, wenn k, durch k= — piel guy 
und k, durch kg=— pi’; - gi” ersetzt werden. 
Der Beweis zu 1. ergibt sich aus der Bemerkung, da8 der Ausdruck 








apr. Gs Bg 


héchstens den Grad uw + hat und an den ++» Stellen x=§&;,i=s,...,s+u+v—1 
verschwindet, weil ®””(@*-»") Lésung von S#”(S#—)”) ist. Die Konstante hk, 
bestimmt man durch Koeffizientenvergleich. 

Den Rest des Satzes zeigt man auf dieselbe Weise. 


2. Die Rekursionsformein fiir die rationalen Ausdriicke +’ (x) 


2.1. Der erste Algorithmus 


Beide anzugebenden Algorithmen verkniipfen benachbarte Glieder des 
Tableaus (1). Der erste eignet sich mehr dafiir, die rationalen Ausdriicke - 
Fy” (#) 

Qt,” = s 
= Oe 
mit dem zweiten die Werte ®”(x,) fiir festes x, giinstig berechnen kann. Zur 
Herleitung des zweiten wird der erste Algorithmus vorausgesetzt. Mit der Ab- 
kiirzung a,:=x—é&; lauten die beiden, Gruppen von Rekursionsformeln des 

ersten Algorithmus: 





selbst, d.h. ihre Koeffizienten zu berechnen, wahrend man 


Pp (a) say gt" PEGH (2) — tape Meee? BPE (2) 


: (3) 
an” (x) =a,-g»’. Oe” (x) — Opie’ %. re :* oS —_ "(x x) 
und 
Pe" (x) =a, - pr ‘ FS. 1 (x) — Osipto’ Pera : _— * (x) (4) 
Qs? (x) aes PEPE ONT (X) — sews Deer OF" (x). 
21° 
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Dabei ist P””(x) = pi”- x¥+--- und Q&"(x) =qgih’- x°+.---. Wir beweisen die 
Formeln (3) und (4) durch vollstandige Induktion. 

1. Zunachst sieht man sofort, daB (3) fiir »=0 (Q#°(x)=const) gilt. (3) geht 
in diesem Fall in die bekannte Interpolationsformel von NEVILLE (s. z. B. [7, 9, 10}) 
iiber. Dasselbe gilt fiir 1=0, P®”(x)=const in (4). Den weiteren Beweis fiihren 
wir nur fiir (3) durch; (4) kann analog bewiesen werden. 


2. Setzt man nun voraus, daB 





o-} "(x )= ee 4" (x) und @e- LY (x x)= = Wi 


OH —h (x) sites w(x)’ 
Qe-h?(x) #0, Oeh"(x) #0 


gegeben sind und die Gleichungssysteme S“~*” bzw. S47)” erfiillen; d.h.: 


Tp—h" (x, 9) 2 PROM" (x) — y- QE-h"(x) =0 


fir x=&,, y=}f,,1=s,...,s+u+y—1 
und : 
TH? (x, y) = Raat? (x) — ¥- Ob? (x) =0 


fir x=&,, y=f;, t=s+1,...,stuty, 


so folgt fiir die aus (3) berechneten P”” (x), Q(x), T#"(x, y): = PH" (x) — y- Qh" (x), 
daB a) P*”(x) vom Grad Sy, 
b) Q#”(x) vom Grad <v ist (in der Rekursionsformel hebt sich der héchste 
Koeffizient gerade heraus) 
und c) a" ta, y) =a, - ¢. po Tea” *(x, y) — Sstpte” ae ve eS we *(x, y) 


also a"@. £0) oe (é, — €,s,+0)° geet r -Ty-*°¢,, fh) =0 
T"(;,/)=0 fir. t=s+1,...,s+u+rv—1 
aT Besa40 feonse = (Essu+s = &,) “ g¢~* £ hey "(é,, prvilerpen =0, 


s 





D4" (x): = — erfiillt das Gleichungssystem S*” und ist eine nichttriviale 
seis peiB i. wenn nicht P”’(x)=0 und Q#"(x)=0 ist. Dieser Fall ist 


dann und nur dann méglich, wenn 


1. gor? = =0 
oder 
Ot ~ ”Qs—™” (x) (5) 


Sette ~he OPP? (x) © 





2. fallso.B.d.A. g#-»’=+0 und 








ui,» 


Fall 1 bedeutet, daB die héchsten Koeffizienten von Q*—*"(x) und Q +1 (x) 


verschwinden. Also gibt es eine gemeinsame Lésung von Se-det, She * und 
S¥-)” namlich ®#-+"(x) und eine gemeinsame Lésung von suc =, 0" 


und he a namlich @«}"(x). Eine nahere Untersuchung dieses Falles bietet 








_ 
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Satz 3, wenn namlich die Range von S#¢—»’-?, S#—h’—?, Suhe—3, Sub und Seah? 
maximal sind. Es wird dann ®¢-?" = Qtrh’ = @er-br 1 = Gehry t = Gerhet 
und das ist gleichbedeutend mit Rang S#’<w+yv+41 (s. Fig. 1). 


Im 2. Fall ist auch 1” +0, denn andernfalls ware 
a, + Oty” (x) =0 


im Widerspruch zur Voraussetzung Q#7)"(x)+0. Mit (5) gilt natiirlich auch 





Ostuty ers" . Pah”"(*) F 


Aus (5) und (6) folgt, daB P*-'"(x) und Q¥-*”(x) den gemeinsamen Linear- 
faktor «, und P4>"(x) und Q¢7)"’(x) den gemeinsamen Faktor «,,,,,, besitzen 
und daB gilt: 


PY-b"(%) a + Pu-2(x) 








—l,» on an 
ion QE-U"(%) as» Q?-* (4) 
= Pan” (*) as y* Pu-2(x) 
@re-1» = —st1 -_ +et } 
Aan (*) ee” (*) Ostet OP? (x) 
wobei (x) = 2) Lésung der Gleichungssysteme S#~?’-! und S#7?’-} 
= —pRi[q) Leung de ungssy re ne. 


also auch Lésung des Systems S#7}’-? ist. (Vgl. hier Fig. 4, 5b.) 


Anmerkung. Bisher haben wir nur diskutiert, wann P(x) und Q%”(x) 
identisch verschwinden. Wenn man jedoch die Rekursionsformeln fiir ein festes 
% = Sq tF,, bo 45, 00 Ey y+, auswertet, bleibt noch der Ausnahmefall denkbar, daB 
PH" (x9) = OY" (x9) =0 geliefert wird, obwohl P%”’(x)=0 und Q#”"(x)=0. Nach 
Satz 2, I.b. ist das aber nur méglich, wenn Rang S*’<yw+v+1. Wenn man 
wie oben die Rangvoraussetzungen Rang S#~%’-?, S#obemt, Suvhe-} Such», 
Sé” maximal trifft, werden wir auf den oben betrachteten Fall gefiihrt 
PP!” (x) = Q%"(x) =0, also zu einem Widerspruch. Mit anderen Worten: Unter 
den getroffenen Rangvoraussetzungen verschwinden P””’(x) und Q#”(x) fiir ein 
spezielles x+&,,...,& 4,,, genau dann, wenn beide identisch verschwinden. 


Wir stellen die Formeln des ersten Algorithmus noch einmal zusammen: 
1. Anfangswerte: 
PP(x) = f,; Q(x) =H. 


2. Rekursionsformeln: 
a) Pe °(x) =a, -ge—"- PAs?" (x) — Oe nte Ba Pe” (2) 
Qe? (x) = a, gob” - QR (x) — Oeste Maa? Oe”? (x) 
b) Pi (x) = G,° ‘a i ar (x) —~ bs tty’ * ‘ Pee-* (x) 


Qe? (x) =a,- y-* ' SS (x) — a, +pty" we : i (x). 








s &, 
—14 


00 


11 


22 


3 3 
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Dabei ist PB” (x) = ph” x#+--- 
Qe? (x) = gh? x? $+ 


P**(x) und Q(x)” diirfen im Laufe der Rechnung durch beliebige konstante 
Faktoren gektirzt werden. 

Man startet den Algorithmus mit den Anfangswerten 1. und fahrt dann 
beliebig mit 2a oder 2b fort. Man beachte, daB die Formeln auch ,,waagrechte“ 
und ,,senkrechte“ Schritte in der ,,Padétafel* erlauben: 


(u,v) 3 (u+41,») > (ut 2,9) 3 (u +3, 9) > 


bzw. 


(u, ») 7 (u,v +1) 8 (u,» + 2) 3 (uy +3) >-- 


Man braucht den Algorithmus nicht unbedingt langs einer Diagonalen (y, v) > 
(u+1, v) >(u+1,¥+1)—--- zu fihren. 

Die Giiltigkeitsbedingungen fassen wir zusammen zu: 

Satz 6. Die Rekursionsformel (3) liefert fiir 1~=0, »=0 rationale Ausdriicke 

*"(x), die die Gleichungssysteme S” lésen. Wenn die Range von S#7?’-?, 
Sua “et, Gerke", oP ae , Suk *, S4o}* maximal sind, liefert (3) ge- 
nau dann identisch verscloaindeade Ph *(x) und Q#"(x), wenn entweder 


a) Rang S!’<u+r+1 
 ° BA? (2) 


a, ON ‘i Pr 1(x) 


oder b) @#-4"(x) = * 



































und 
pu —1.¥ (x) on “ttate Ba” *—*(x) 
” Sst uty” OE? ao. i 
2,y—1 Fa’ *(#) a. * ~2,9— sill pbs 
we See aon he So ° die gemeinsame Lésung von S#7?’-?, S#o3?-3, 
> ist. 
Tabelle 1 
a, fs 
*—4 —2 =@®) 
tis) 
or; ; ; 
— G.0 1,1 __ 
: See 
p= x or) — a, ee | a 
x— i ; 
6x*—26% | 
m1 nets io | 
‘Bee 424-3 %—24 ! 
[ or°=*| op — 7 fs 3 +3 
2 2 
x-2 2 =@0 Orie. a 
O}°=2%—2 
x—-3 4 =@° 
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Offensichtlich bleibt der Satz fiir (4) richtig, wenn man die Indexkombina- 
tionen (u—2,»—1) und (u—1, v) durch (u—1, »—2) und (u, »—1) ersetzt. 
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up oO — N «o + 
o oO — N aa) + 


Fiihrt man den Algorithmus langs einer Diagonalen (yu, v)>(u+1,”) > 
(u+1,v+1)—---, so sei ausdriicklich darauf hingewiesen, daB eine Verletzung 
der Rangvoraussetzungen sich in jedem Fall in einem friiheren Stadium des 
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Verfahrens durch das Auftreten des Ausnahmefalls a) von Satz 6 bemerkbar 


macht. 

. Die Ausnahmefialle a) und b) des letzten Satzes werden durch die Fig. 4 
und 5, Falle a) und b) veranschaulicht. Fig. 5 zeigt das fiir die Ausnahmefalle 

typische Verhalten der Werte des Tableaus (1) fiir festes x9. 


u—-i,v—1 u-i,y u,? u—2,9—1 u—i,v—1 p-i,v w,? 


=o 
) 
& 


Fall b) 


~ 


© 


\\. 


%> 
& 


Fig. 


~ 


OOO 
\\ / \ i 
OO 

© 
OO 


Fall a) 


— 


u-i,v—1 u-i,y “uv u-—2, 9-1 u—i,v—1 u-i,y By, t 
tf (s) 

— = 

=> > 
San 

Fall a) 


Als Beispiel diene Tabelle 1 und 2, die den Ausnahmefall (b) von Satz 6 
illustrieren. Der Ausdruck ®*,? in Tabelle 1 ist zwar wohldefiniert, kann aber 
nicht mit der Rekursionsformel 2b) unseres Algorithmus gewonnen werden. 
2b) entartet fiir alle x zu 0/0. Tabelle 2 zeigt, daB die Anomalie von Tabelle 1 
durch einfaches Vertauschen der (&;, /;) vermieden werden kann. Tabelle 3 bringt 
ein Beispiel fiir senkrechte Ubergiange in der Padétafel. 


2.2. Der zweite Algorithmus 


Die Formeln des zweiten Algorithmus erhalt man aus denen des ersten 
Algorithmus, indem man durch geschickte Anwendung von Hilfssatz 2 die Kon- 
stanten p*”, g” aus den Rekursionsformeln eliminiert und so zu Formeln gelangt, 
die lediglich die ®*”(x) selbst enthalten und die deshalb geeignet sind, nur die 
Werte der Ausdriicke ®#”(x) aus (1) fiir festes x= x, rekursiv zu berechnen. 

Wir nehmen im folgenden w=1, y>1 an und da8 die Rangvoraussetzungen 
von Satz 6 erfiillt sind, d.h. daB die Range von S#7P’!, Suop?-3, Suchyn}, 

















Ee ee 
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Sorbet, Serpent, Se-he, Sech* maximal sind. 
PRO (x) pO xe + 
OP*(s) oS 9° +> 





Nach Hilfssatz 2 ist aber, wenn ®%°(x) = 


(4#—§541) * (4 —Ss49) --- (¥—Ss 44-1) 
QOS *(#) » OP? (4) (7) 
mit k, = ie ls pet 1,»-1 gi) » 





De-19( x) — De-br-1(x) = fy. 


_ (#—Fs41) * (¥#—Es549) --- (4 —Es4-y40—1) 
Orr? (a) Of? (4) 


mit hy =— paren). geo 
Setzen wir zunachst p#7'’"1 +0 voraus; wenn ferner keiner der in Satz 6 auf- 
gefiihrten Ausnahmefialle a) und b) vorliegt, folgt sofort aus (3): 
D0 (4) a PERT [ag POE PAGE) tate EE = BPE) 
s PMY y—1 * [ae, 7 a 1,7. OE —1, 7 (%) Oss way’ qe eee vy. - QU-»”(x)] 


oder bei Beriicksichtigung von (7) (Q#~*’(x) und Q#7h"(x) verschwinden beide 
unter den angegebenen Rangvoraussetzungen nicht identisch) : 





Vern *(x) = 


sees 














Fa’ (*) As Bp-h*(s) hy 
(x) = * Ose" (#) ee wetate Gash ti) - ORFE (a) 
1 





Erweitert man schlieBlich mit (x —&,.,)-(*—&, 42)... (*—&,4,4,-1), So erhalt 
man bereits die erste Rekursionsformel des zweiten Algorithmus: 
a, tty "(x )- ( oe- 1” (x) — OF oni - bas 2 1,9 (x)- Ve. »* (x) 


. (8 
3° (OP (x) — OF ae, *(x)) — Sstuty” Vv Or, ty r(x) (8) 





Zwei aquivalente Versionen derselben Formel sind: 
a7 OEY nef (Of—h" (4) — OEE id 
(Ge pi *(x)— ou), ih 1()) — dys pty” V L(x) ’ 





Dy." (x) = By-¥"(x) + — 


VY Peer’? (*) 
Op" (x) = Oph (x) + ——____* 


a 





u(x) ain 
ou- 4 7a) = gua} y —1 (x) 


Stuty . 
(4 





1 om 
Untersuchen wir nun das Verhalten der Rekursionsformel in den Ausnahmefiallen 
per}’-? =0 und den Fallen a) und b) von Satz 6 (d.h. wenn PM” (x) = Q"(x) =0 
und darin ist nach der Re sae vor Satz 6 der Fall enthalten, daB R”’(x,) = 

QM” (x9) fiir ein x)= E,, ..., &,4,4,iSt). Peep”? =0 bedeutet aber, daB ou, ig) 


-auch Lésung von S#7?: *-1 und Sup’? ist (s. Fig. 4b), d.h. es liegt bear Fall b) 


s+1 
von Satz6 vor. Man sieht nun sobert an der Herleitung der Formel (8), daB 


sie genau dann fiir %+6,,...,&4,4, zu der Form 0/0 fiihrt, wenn in (3) 
P*” (x) = Q&"(x) =0 wird, d.h. genau in den Ausnahmefallen von Satz 6. 
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Die zweite Rekursionsformel des zweiten Algorithmus leiten wir auf dieselbe 
Weise aus (4) her. Nach Hilfssatz 2 ist 








»— — (¥—&541) * (¥—Gs49) ... (¥—& »—1) 
DY" (x) — Ort *(#) = ha: . “(sy ORE) 
mit k, = pe v1. at v—1 

o—!i _(& §s44) *(¥— ale ++ (*#—§s4 449-1) 
or on ees (*) OFF? *(#) : 


mit ky = pert. -geeh v1 
Also folgt aus (4): 


an 2-1, Dwr— = »— 
PF 8) = Ep ORT) tens BEE OF) 
und schlieBlich wie oben: 
Oty DEPT * (#) + (Dr? —* (4) — DET HP * (x) — 54 yp BH * (2) - Vv Osr *(4) 
a, ° (oe 71 (x) — oe-} »-1(x)) re Ton) _ 








@" (x) = 


(9) 


Die Diskussion der Giiltigkeitsbedingungen kann auf dieselbe Weise wie eben 
gefiihrt werden. 


Aquivalente Formeln sind: 








ou.» gurl a, VOR (#)- (oe *—1 (x) — Oe ree jn (x) 
= (x) = (x) + a@,° (oe r(x) — OY *-1(x))—«@, Ost uty “Y Oi *() 
YM (2) 
gts Baw VY OH (#) 
sas Astute | 





a, op (3) — O(a) 

Die beiden Formelgruppen (8), (9) ff. machen den wesentlichen Inhalt des 
zweiten Algorithmus aus. Da die angegebenen Rekursionen nur fiir ~=1, 721 
gelten, bleibt noch das Problem, fiir die Anfangswerte ®*° bzw. ©” zu sorgen. 
Wir greifen hier auf eines der bekannten Interpolationsverfahren zuriick, den 
Nevilleschen Algorithmus (s. etwa [7, 9, 10]). Wir stellen die Formeln des zweiten 
Algérithmus zusammen (eine ALGOL-Formulierung s. Abschnitt 4): 

1. Anfangswerte und Randbeziehungen: 

D(x) =f, 


a) Dr (x) = Se Ped” ° (#7) — a, 4 , OF 9 (2) 





, 


Ao— Aes, 
b) P(x) = —_S ty 
asty 
D771 (x) ~ GO7-1(x) 
2. Rekursionsformeln fiir w=1, v1: 
a) Dh" (x) = e- - 


ob 








1°°(#)— BE—¥"(#)) - (OE—e"(*)— OEP ()) 
«,° aoa ONY’ *(4)) — Ss 4 to y (PhP (4) — oy * (*)) 
* Formel 2b geht in Formel 1b iiber fiir ®;3;”=0. 














Tete! tin 








PRcicsinsittiaiaeis 


nin bia oe rated be alate Be oe? 
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b) Dh? (x)-= sti > 
4 3 (Pi * (x) — O?—? (x) - (oy ¥—1 (x) — GET N’-1(x)) 

a ° (oe 7H) = REP * (2) — Oss wry * (OR? (4) — ORE P24) 
Man berechnet zunachst von den Anfangswerten ®° Of ausgehend mit den 
Formeln 1a ‘bzw. 1b am ,,Rand“ (wu, 0) bzw. (0,7) der ,,diskreten Padétafel‘ 
die ersten Spalten von Schema (1), um dann abwechselnd mit den Formeln 2a 
und 2b die weiteren Spalten von (1) zu berechnen, die den os tecenme ommaaal 
der ,,Padetafel‘‘ re 

(0, 0) = (1, 0) *5 (2,0) 3 --- 3 (u, 0) 9 (uw, 1) 3 (wu +1,1) 3 (+4, 2) 78 
oder 

(0, 0) +8 (0, 4) +3 (0, 2) 48 --- 48 (0, ») 28 (4,») 78 (4, »+4) 23 (2,7 +4) 23 

Die Giiltigkeitsbedingungen fiir den zweiten Algorithmus decken sich nach 
dem oben Gesagten mit denen des ersten. Wir verweisen deshalb auf Satz 6 
und die Fig. 4 und 5, die diese Bedingungen ausfiihrlich darstellen. 








3. Vergleich mit anderen Verfahren 
3.1. Das Verfahren von WYNN 

Das Wynnsche Verfahren [16] ist ein nichtzentraler ,,Aitken-artiger‘‘ Algo- 
rithmus (im Gegensatz zu unseren, zentralen, den Nevilleschen Interpolations- 
formeln verwandten Verfahren), um die rationalen Ausdriicke (es wird dieselbe 
Notation fir Determinanten wie in NORLUND [12] verwandt) 
fis Og his + OFF; Oj Og, -.., | i=x, 0, 1,..., ¢+9—1 
|t,a;f;,-.-, 0% f;, aj, 02,...,a4| ix, 0, 4, ae oer 
fiir die YW" (E;) =f, fiir i=x, 0, 1,...,4+7—1 gilt, lings ae Hauptdiagonalen 
(0, 0) (1, 0) >(1, 1) > --- >(u, uw) >(u4+1, w) unserer ,,diskreten Padétafel‘ zu 
konstruieren. Um die Schreibweise weiter zu vereinfachen, wird im folgenden 
der Laufindex 7 bei den GréBen f;, «;, &; unterdriickt; d.h. wir schreiben: 
|f,af,...,a"f, a, a%, ...,0¢] ”,0,1,...,¢+9—1 
|t,af,...,0"f, a, 0%, ...,a”|%,0,4,...,¢+9—1 - 
Es werden hier nur die Definitionen der in das Verfahren eingehenden Hilfs- 
gréBen und die Rekursionsformeln zwischen ihnen angegeben. Es sei schlieBlich 
noch bemerkt, daB man die Beweisidee von WYNN auch zu einem anderen Beweis 
unseres zweiten Algorithmus verwenden kann. 





YH" (x) = a 


ye "(x)= 

















Definitionen : 
ot? (x) = Ja” f,af,...,@"—*f,m,..., a4, f|,0,1,...,¢+»—1 
- os Jaf,...,@"-1f,a,...,0”,f|0,1,...,¢+9—1 , 
oH" (x) := Ja”, af,..., af, a,..., 04-2, f| *,0,1,...,¢+v—1 
ad re laf,...,@"f,a,...,a4-1, #]0,1,...,4+9—1 ‘ 
’ ..., QT Ff, a,...,04,1| %,0,1,...,4+9—1 
ith on "6A FO ma OATS 
my” (%) laf,...,@"-1f,a,...,a4,1|0,1,...,¢+9—1 P 
TH” (x) = JaM,af,...,a"f,a,...,a4-2, 1|,0,1,...,44-9—1 
? en Yah, ++» OF, ,---» 2, 110, 1,...,¢+9—1 ” 


-|a” ies ..., 04, 1|%,0,1,..., 6+” 
v *om , ¥ (x) sa | fof, »@ f, @, , a’, os 5s , - 
Qx'” (*) Oy, * O04” (%) lf, af,...,@”-2f, a, ...,a",1]0,41,..., 6+ 
a, |aM,f,af,...,a%f, a,...,a4—-3, 1|%,0,1,...,¢+y 
lf, af, ...,@°f,a,...,a4—1, 1/0, 1,..., 6+” 








Oi” (x) 1 oy - DH” (x) = 
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Die folgenden Rekursionsformeln findet man sémtlich mit Hilfe der Schweins- 
schen Identitaten (s. [17]). Die Formeln fiir o und z lauten analog. Fiihrt man 
daher den Sammelnamen 1 bzw. 7 ein, der o oder a, bzw. & oder % bedeutet 
(aber in einer Formel nur eine Bedeutung hat), so bekommt man: 


—1,»-1 (*) e . eethe (¥) 

















Lg, paid Wb 
“yy iene 1,v—1 _ Sut+e—i A 
sore) =e) Sees (A) 
Se. fa\ a. Be~20—2fn\ . Gegora ee (4) 
re(e) =O (a) — HE OE (B) 
v _— ” a & ey Trt, (%) > Or? (x) 
eh "(s) =a, (x) — Sess ede Oe (A) 
AY ae a=u,v ree & +5 Of, (*) -Qf—»" (x) 
tie ade =~ ®) 
sowie schlieBlich : 
oth? 
Wi (x) = ETE rh 2), (A) 
Yr” (x) ai Ge” (x) 3 Yysu—1,» (x) ; (B) 


Wynns Algorithmus besteht darin, daB man, ausgehend von den Anfangswerten 


oY = (x) =, 


o9° (x) mes | 
my (x) =1, 
Pe? (x) = be 


zundchst mit (A) 9°°(x) konstruiert und von da an abwechselnd mit Hilfe der 


Formeln (B) 

gl, q0 51,0 ypt.0 
und mit (A): 

of atte 


berechnet (s. Fig. 6) usw. 
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3.2. Der Thielesche Kettenbruch und seine Verallgemeinerung 
durch das Verfahren von TUCKEY und THACHER 


Die Interpolationsformeln von TucKEY und THACHER [15], kénnen dhnlich 
wie unser 1. Algorithmus direkt durch vollstandige Induktion verifiziert werden. 
Der Thiélesche Kettenbruchalgorithmus ist als Spezialfall darin enthalten. Das 
Thielesche Verfahren ist mit vielen Einzelheiten (reziproke, inverse Differenzen .. .) 
haufig beschrieben worden, z.B. in [7, 9, 10, 12, 14]. Wir geben hier nur die 
Rekursionsformeln von TUCKEY und THACHER. Weitere Untersuchungen findet 
man in der Originalarbeit [15]. 

Das Verfahren von TUCKEY und THACHER liefert — in unserer Terminologie 
_ Fye’(*) _ Pw" (2) 

Ob" (#) QM (x) 


Di 9 > Git» Gerth _, Ger12_,..., 


und zwar 





ausgedriickt — die rationalen Ausdriicke ®f:" (x) 
in der Reihenfolge 


Die Rekursionsformeln lauten, wenn man ¢’”(x, y):= P#"(x) —y - Q”"(x) und 
Hh”: =t"(E;, f;) setzt: 
1. a) Phx) = al?2. Pe-2(x) 4 (y — £4) « PH“bY-N (x) 
QM (x) = a2. OMA) + (x — Epa ya) QE x) 
b) PH*(x) = BABe. PHB (x) + (x — Ey. g) + POH a) 
Qe" (x) = BEEP. HEH) + (x — Egg a) QUBI (a) 


ms! 


v 
2. a) au” : = (G4, et 4.4941) J “ae 
ttt 


{Hv—1 
B+e+1 


b) BM” = (E44 — Eu 4y4i)” pn 
ute+1 
Anfangswerte: P”°(x) = Interpolationspolynom durch (é;, /;), i= 0,1,..., 
P+-1,°(x) = Interpolationspolynom durch (é;,/;), 1=0,1,...,4—1 
QM? (x) :== QM? (x) = 1 
tH-1,0 (yy) := PH-h(x) — y 
t°(x, y) :=c- (P(x) — y), c beliebig reell. 
Durch abwechselnde Anwendung der Formeln 1.a. und 1.b. erhalt man die 
Folge 
Dr-2.0, qo 9) nd UX) gusta (ea) gutta (Od) 


1a und 1b entsprechen aber den Rekursionsformeln fiir die Teilzihler und Teil- 
nenner des Kettenbruchs: 





- ‘a a *—6 *—€ *—& 
D(x) = PH r(x) + ( ssh 4 Aah + saat Seataly.., 
2a und 2b dienen zur Berechnung der Konstanten gis, bt, gett ... Speziell 


ergibt sich fiir ~=1, c= ane der Thielesche Kettenbruch: 
P 1/0 








(x) =f, + safe + Sh) 4: eet t+. 


| | qo | bit 
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3.3. Vergleich der beschriebenen Algorithmen 


Welches Verfahren vorteilhafter ist, hangt von der jeweiligen Aufgaben- | 


stellung ab. Im wesentlichen gibt es in der Praxis der Interpolation zwei Auf- 
gaben: 

1. Gesucht ist die rationale Funktion ®*”(x) selbst (d.h. ihre Koeffizienten) ; 

2. gesucht ist ledigleich der Wert *”(x,) fiir ein bestimmtes %. 

Fiir die 1. Aufgabe sind offensichtlich der zweite Algorithmus sowie das 
Wynnsche Verfahren ganzlich ungeeignet. In Betracht kommen hier lediglich 

a) der erste Algorithmus (2.1) und 

b) der zuletzt beschriebene Algorithmus von THIELE und TUCKEY-THACHER 
(3-2). 

Wie man sofort sieht, ist, vom Rechenumfang her beurteilt, das Thiele- 
Verfahren vorzuziehen, wenn es sich darum handelt, die Koeffizienten nur eines 
bestimmten ®””(x) zu bestimmen. In diesem Verfahren beschrankt man sich 
namlich darauf, nur die Koeffizienten von ®%°, Sgt", g+1,°+1 zy berechnen, 
wahrend das 1. Verfahren (aus 2.1) viel mehr leistet: Mit ihm werden die Koef- 
fizienten auch von O%°, O°, Oe, ..., Dgtt°, Pete... berechnet. Legt man 
auch auf die Koeffizienten aller dieser ,,Zwischenausdriicke‘‘ Wert, dann ist ohne 
Zweifel unser erstes Verfahren vorzuziehen, weil es ganzlich ohne HilfsgréBen 
wie a’, b””, #%” auskommt und das Verlangte auf rationellste Weise leistet. 

Zur Lésung der zweiten Aufgabe stehen grundsatzlich alle erwaihnten Algo- 
rithmen auBer dem ersten zur Verfiigung: 


a) der zweite Algorithmus, (2.2) 
b) Wywnns Algorithmus (3.1) 
c) Thiele-Tuckey-Thacher Algorithmus. (3.2) 


Ein Vergleich zeigt, daB der Thiele-Tuckey-Thacher-Algorithmus mehr Opera- 
tionen braucht als die beiden anderen. Obendrein arbeitet er mit HilfsgréBen: 
a”, b&”, tH”, PH” OM” und nicht direkt mit den gesuchten GréBen ®”” (x4). 

Unser zweiter Algorithmus ist ungefaéhr mit dem Wynnschen Verfahren gleich- 
wertig, was die Zahl der Einzeloperationen anlangt, diirfte aber fiir die Praxis 
vorzuziehen sein, weil er im Gegensatz zu b) ohne HilfsgréBen arbeitet und, 
von den Randbeziehungen abgesehen, mit nur einer Rekursionsformel auskommt, 
zwei Umstande, die ihn besonders fiir die Programmierung auf Digitalrechnern 
geeignet erscheinen lassen. AuBerdem hat er gegeniiber den Kettenbruchver- 
fahren den groBen Vorteil, daB er ohne Mehraufwand gleich das ganze Schema (1) 
der *" (x) liefert ; die Kettenbruchverfahren liefern bekanntlich aus dem Schema 
(1) nur die Elemente auf einer festen Diagonalen s=const; will man auch die 
tibrigen ®”(x9) mit g@=s berechnen, so muB bei diesen Verfahren ein wesent- 
licher Teil der Rechnung wiederholt werden. 


4. ALGOL-Programm zum zweiten Algorithmus 
Das hier gegebene Programm entspricht ALGOL 60, [2]. 
procedure interpol (x0, x, /, m, m, eps) result: (g) exit: (L); 
array x, /; 
integer 1, m; 
real x0, eps, g; 














en ais 
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comment interpol berechnet den Wert g= Phi(x0) = P(x0)/Q(x0) des rationalen 
Ausdrucks Phi(x)= P(x)/Q(x) an der Stelle x0. Dabei wird gefordert: 
Grad P(x) Sm 
Grad Q(x) Sn 
und Phi(x[t]) =/[¢] fir 7=1,2,....m+m+1. 
Die Prozedur wird tiber den Fehlerausgang L verlassen, falls die Interpolations- 
formeln die Form 2/0 annehmen, efs ist eine numerische Fehlerschranke, mit 
der das Verschwinden des Nenners der Interpolationsformeln, gepriift wird; 
begin array a[1:m+n+1],A[1:m+n+1, 1:m+n+1]; 
integer 1,7,7,k; 
real 4, ¢, u; 
r:=m+n+1; if(m=0)V(n=0) then 7:=1 else j:=2; 
Anfangsweite: 
for 1:=1 step 1 untily do 
begin a[i]:=—x0 — x[t]; h[t,1]:=f[t] end; 
if m < n then goto Rand 2; 
Rand 1: 
for k:=2 step 1 until m — n+ )do 
for: :=1 step1 untily + 1— kdo 
h(i, k]:=(a[t] xh[i+1,k —1] —ali+k —1] xh[i, k —1])/ 
(a[t] —a[i+k—1)); 
if n = 0 then goto Ende; ; : =m —n-+ 7 -+1; goto interpolation; 
Rand 2: 
for k:=2 step 1 untiln — m+ )do 
for: :=1 step1 untily + 1—kdo 
begin £:=A[i+1,k —1]; g:=Alt,k —1]; 
u:=alt]xq—alt+k—1]xp; 
if abs(u) < eps then goto L; 
h{t,k):=(a[t] —aft+k—1])xpxq/u 
end; 
if m = 0 then goto Ende; 7 :=n —m-+7+1; 
Interpolation: 
for k:=7 step 1 untily do 
for::=1 step 1 untily + 1— kdo 
begin p : =a[i] x (A[t,k — 1] —A[t+1,k —2]); 
q:=ali+k—1]x(h[t+1,k —1] —h[t+1,k —2]); 
if abs (q — p) < eps then goto L; 
h[i, k]:=px (bli +1,k — 1] — Ale, k—1])/(6 —g) +A, k — 11] 
end; 
Ende: g:=h[1,7] 
end interpol; 
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““Multi-line”’ iterative methods for elliptic difference 
equations and fundamental frequencies 


By 
SEYMOUR V. PARTER 


1. Introduction 


The rates of convergence of iterative methods for the solution of elliptic 
difference equations have been studied extensively. In 1950 FRANKEL [7] gave 
explicit estimates for the case of “‘point”’ iterative methods applied to the Laplace 
difference equation in a rectangle. In 1954 D. YounG [28] discussed general 
second order ‘elliptic difference equations satisfying Condition A in general 
domains. Later, ARMs, GATES and ZoNDEK [J] and H. KELLER [14] studied 
“‘line’’ methods for the Laplace equation in rectangular domains. More recently 
this author [15], [16] and R. S. VARGA [19] independently studied ‘‘two-line”’ 
methods*. Our results in [16] also included estimates for the biharmonic equation 
and more general second order equations with constant coefficients in rectangular 
domains. 

At the same time other authors (see Courant [4]; ForsyTue [5], [6]; 
HerscH [13]; and WEINBERGER [21], [22]) have considered finite-difference 
methods for the eigenvalues of elliptic partial differential equations. Of primary 
importance are the eigenvalues of LAPLACE’s equation (membranes) and of bi- 
harmonic equation (plates). 

A study of the known explicit estimates for the ‘‘line’’ and ’’two-line”’ iterative 
methods shows an interesting relationship between Ap, the dominant eigenvalue 
of the Richardson iterative method, and the minimal eigenvalue of the associated 
differential operator. For example, if Ap (k) (k=1, 2) is the dominant eigenvalue 
of the k-line Richardson method applied to the Laplace difference equation in 
a rectangle R, we find 


(1.) Ap (k) ~1— % A(Ay) 

In this formula A is the minimal eigenvalue of 

(4.1) Au+Au=0 inR 
u=0Q on the boundary R. 


Moreover, our estimates for the “‘line’’ methods applied to more general second 
order elliptic difference equations and our estimates for the ‘‘two-line’’ methods 





* Those studies were motivated by the remarks of J. HELLER [12] who suggested 
the desirability of such methods for the biharmonic equations. 
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applied to the biharmonic difference equations are related to estimates on the 
minimal eigenvalue of the associated differential operator (see sect. 4 and sect. 5). 

In this paper we extend (1.) to more general equations in more general domains. 
We study “‘line” and ‘‘multi-line” iterative methods for the Dirichlet problem 
for the difference equations associated with an arbitrary self-adjoint second order 
elliptic operator L[u] in bounded simply-connected domains. 

Let Ap(k) be the dominant eigenvalue of the k-line Richardson iterative 
method. Then 


(1.2) Ag t) = 1 — sy Aly)* + 0(Ax Ay + Ay*) 


where A is the minimal eigenvalue of L[u] subject to zero boundary conditions 
and J, is an integral depending on the associated eigenfunction. Moreover, if 
L{u] has constant coefficients 


(4.2a) g(t) 1 — —*_ A(Ay)? + 0(Ax Ay + Ay?) 
0 


and we may compute J, with ease. 
Finally, these results may be extended to the case of the biharmonic operator 
in the form 


(1.3) Ag (R) 


Since these multi-line methods are “‘three-block-schemes”’ (see [8], [12]) these 
estimates also enable one to estimate the rates of convergence of the Liebmann 
and extrapolated-Liebmann methods. 

The significance of these results are two-fold. On the one hand, estimates 
of the form (1.2), (4.2a) and (1.3) are essential if one is interested in an optimal 
choice of an iterative scheme. Moreover, since it is much easier to compute 
Az (k) (for small k) than it is to compute eigenvalues of difference operators, 
one may use (1.2a) and (1.3) to obtain estimates for the fundamental frequencies 
of membranes and plates. 


1— * A(Ayy, k>2. 


g 


2. Preliminaries 
Let G be a simply connected domain in the (x, y) plane bounded by a smooth 
curve. Consider the elliptic operator 


_ @ ‘0 (2) 7) a 7 é é 
thd LE ttt at wy ata yD 


where a(x, y), b(x, y) and c(x, y) €C,(G), i.e., are twice* continuously differenti- 
able in G, the closure of G, and satisfy 
(2.1) az=o>0 
ac—b®>o>0 
for some positive number 9. 
We are concerned with two problems associated with the operator L. 





* It is not essential that we have such smooth coefficients. However, it is con- 
venient to assume sufficient continuity to avoid the necessity of detailed arguments 
about fine points. 
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a) The Dirichlet Problem. Let o(x, y)€C,(G) be given. We seek a function 
u=u(x, y)€C,(G) which satisfies 


(2.2) , Lu=0 inG 
“= on G, the boundary of G. 


b) The Eigenvalue Problem. For our purposes it is necessary to formulate 
this problem in its greatest generality. Let 


7, 2u . dv ou dv du dv Ou dv 
(2:3) Blu, 9) = 03+ oe +9 (aE oy + ay aa) tay By 
be the bilinear form associated with L by the well-known ‘‘Greens” formula 
(2.3.a) SfuLlv]dxdy =— ff Blu,v]dxdy+fuSlv]do 
G G é 


where S[v] is a first order differential operator. 
Consider the class of continuous functions, H, defined on G which vanish 
on G and have “strong” derivatives which are square summable. More precisely 


yp (x, y) CH with the strong x and y derivatives f(x, y), g(x, y) respectively if 
there exists a sequence of functions {y™) (x, y)}€C,(G@) which vanish in a neigh- 


| borhood | f G and 


(2.4a) y™ (x,y) > (x, 9) 
unifor. ..y in every compact subdomain of G and 


[lee 


 — j!'dxdy 0 





Ox 
(2.4b) ae 4 
[fle y"—e| dxdy—>0 
A 7 
while 
(2.4c) SS + lg?) dxdy < co. 
We will write 
(2.44) OY wef, OY ung. 


Ox oy 


It is, in fact, true that w(x, y) is differentiable almost everywhere and (2.4d) 
holds almost everywhere. ; 

The minimal eigenvalue A of L on G is the smallest number A for which 
there exists a non-trivial solution of 


(2.5) LU+AU=0 inG 
U=0 onG. 


However, it may be shown (see [3], [10]) that A is the solution of the following 
variational problem: 


(2.5 a) Min Sf Bly, y] dx dy — 


ven Jilwitdedy 
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We remind the reader that with the given hypothesis there exists a solution 
of (2.5), say U(x, y) and U(x, y) €C,,(G). 

We now turn to the consideration of a system of finite-difference equations 
which approximate the Dirichlet problem (2.2). Our discussion is basically that 
of COURANT, FRIEDRICHS and Lewy [2]. Consider the (x, y) plane divided into 


rectangles by the lines x=mAx, y=jAy, m,j7=0, +1, +2,.... The points — 


(Xm, ¥;)=(mAx,7 Ay) are called mesh points. The mesh region G, — which is 
uniquely determined for 4x and Ay small enough — consists of all those points 
lying in G which can be connected to any other given point in G by a connected 
chain of mesh points. By a connected chain of mesh points we mean a sequence 
of points such that each point follows one of its eight neighbors in the sequence. 
We denote as a boundary point of G, a point whose eight neighbors do not all 
belong to G,. All other points of G, are called interior points. 

We will consider functions u,v,... of position on the grid, i.e., functions 
which are defined only for mesh points, but we shall denote them by u(x, y), 
v(x, y),.... If F(x, y) is any function defined on G there is an associated grid 
function, which we again call F(x, y), defined in the natural way. 

If we imagine the mesh triangulated by the construction of all the diagonals 
with positive slope (or negative slope) there is a natural association between 
grid functions and the class H(4x, Ay) of all piecewise linear functions which 


are linear in each triangle. We let H(Ax, Ay) be the class of all functions 
v(x, y)€H(4x, Ay) which vanish on the boundary of G,. 


For any two functions g(x, g), h(x, y)€ H(4x, Ay) we define 
(2.6) [e, b] = Ax Ay X g(m Ax, 7 Ay) -h(m Ax,7 Ay). 

We denote the forward and backward difference quotients of a grid function 
u(x, y) by 


i Ge {ule + 4x, y) — u(x, y)}, p= {u(x, y) — u(x — Ax, y)} 
2.7 
ty =e (u(x, + Ay) — u(x, 9)}, ty =e fu (x, y) — u(x, y — Ay}. 


Let 


(2.8) A(x, y) =a(x+44x, y) 


D(x, y) =e(*,y + g4y). 

We define the finite-difference operator J, by 

(2.9) lv] = (Avz)e +o {(b m,), + (6 us)y + (b uy)z + (6 u5)z} + (Ddy)5. 
Then we approximate (2.2) by 

(2.10) 1,[v] =0 for all interior points of G, 

v=q for all boundary points of G,. 


We remark that /,[7] is a consistent approximation to L[f]'for any function 
/€C,[G] in the sense that 


(2.11) fl =LIf] + O(4x + Ay), 


| 


————— 
me Aelia LA Wt i tad ns, sae ih in es 
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As regards the problem of convergence of the solutions of (2.10) to the function 
u(x, y) which satisfies (2.2) we only wish to remark that the sequence of associated 
functions €H(4x, Ay) converge in L, to u(x, y), (see [2]). Our major concern 
is with methods of solving the equations (2.10) — and we will discuss this in 
the next ‘section. 

However, we first collect some useful results which are modifications of 
results of [2]. 


Lemma 1. Let V(x, y) CH(Ax, Ay), then 
(2.12) [V,d,V]=Ax-Ay>d {aV? +20V,V, +cV7}+O0[(4x + Ay)]. 
. . 


Proof. Summation by parts gives 
[V,1,V] =Ax- AyD {AV? 4 bV,V,+6V,V,+DV,}, 

and (2.12) follows from the differentiability of a, b, c. 

Lemma 2. Let {V}?° be a sequence of functions in H(A x, Ay) with Ax + Ay—0, 
and [V, V]=1. Let 
(2.13 a) [V,4,V] SC, forall Ax, Ay. 
Then, a subsequence {V} converges to a function V°(x, y)CH . Moreover 
(2.13 b) Sf BLV®, V°]dxdy<C,. 

Proof. In virtue of (2.1a) and lemma 1 the hypothesis (3.13a) implies 

Ax- AyD [(V)? + (Y)*]<C, 


for some constant C,. By the argument of [2] this implies the uniform con- 
vergence of a subsequence of {V} in every compact subdomain to a function 
V°(x, y) which is continuous in G. Now, the functions V are not in C,(G) but 
they may be replaced by such functions which also vanish in some neighborhood 


of G. This replacement is accomplished by the mollifier technique of FRIEDRICHS, 
see [11]. The estimate (3.13a) also holds for these ‘“‘mollified’” functions and 
(3.13 b) follows at once. 


3. The ‘‘multi-line’”’ iterative methods 

In this section we formulate some iterative methods for the solution of (2.10) 
and discuss their rates of convergence. For this purpose it is useful to give a 
matrix representation for this system of linear equations. However, since the 
coefficients are unbounded (as 4x, Ay—>0) we work with the equivalent system 
(3.4) reg aya l,{v] =0 for interior points 
; v=g for boundary points. 
If the ratio 4x/Ay satisfies 


(3.2) - 0) SAx/AySa, 


the non-zero coefficients of (3.1) are bounded, both from above and below, for 
all Ax, Ay. 
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It is convenient to introduce some more notations which are in common 
usage in this field. If F(x, y) is any function defined on G, we write 


(3.3) F,,,j = F(m Ax,7 Ay). 


Any matrix representation of (3.1) will naturally depend on the ordering of 
the two-dimensional array of unknowns (v,, ;). For our purposes it is convenient 
to arrange the unknowns in horizontal lines as follows. Let 7, be the smallest 
integer for which the line y=7, - 4y contains interior points of G,, and let J 
be the largest such integer. There is no loss in generality in assuming j,=1, 
and we do so. If m is the smallest integer for which the point (m4x, Ay) is 
an interior point, then ;=v, , is our first unknown. We now count from left 
to right on the line y=Ay until we exhaust the interior points on that line. 
Then we count from left to right on the line y=2Ay, etc. 

In this way we arrive at a vector =(&,) of unknowns. Now we write this 
vector in a “‘block” representation. Let w; be the vector of unknowns »,, ; 
associated with the horizontal line y=7 Ay, 1.e., 


(3.4) lke (Un, 4) 
where m runs over an appropriate range. Thus the full vector € may be written as 
(3.4a) g=(~,), f=1,2,...,J- 


In what follows we will deal with many tridiagonal and quasi-tridiagonal 
matrices. We use the following notation (see [18]). If (x, y), e(x, y) and g(x, y) 
are functions defined on G,, then 


(3.5) un, 7 Sm, 7 Sen, 4 = T; 


denotes the tridiagonal matrix whose order is determined by the number of 
interior points (mAx,7Ay)€G, on the line y=7 Ay and which has {e,, ;} on the 
main diagonal while the m’th row appears as the left-hand-side of (3.5). Further- 
more, if M;, N;, and Q;,7=1, 2,..., J are such tri-diagonal matrices, then 


(3-5) [N; M; Q;) =7o 
denotes the quasi-tridiagonal matrix of quasi-order (j,—j))+41 which has the 
blocks M; on its main ‘diagonal, etc. 








Let 
a(x, ¥) = ae aay A(x, y) 
(3-6) 1 Ble 9) = spe peay O(4 9) 
v(x, ¥) = Gate ayt DU y) 
and let 
(3.6a) | Lj = [1m —1,5 — (Om,5 + %m—1, 4 + Ym,9 + Ym, 4-2) &m, i] 
os Se (Brn, j+1 + Bm—1,) Ym, i (Bm, j+1 + Bm +1,4)] 


while E* is the transpose of E. Let 
(3.7a) M = [Ef LE}, 
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then (3.1) takes the form 
(3.7b) Mé=n : 


where 7 is determined by the given boundary values 9. 
We assume J is a multiple of k, say J=k-gq, and consider k-line iterative 
methods for the solution of (3.7b). Let 


(3.8) M,=[EPAL EN yay %=1,2,.-.9, 
and let ¢, be the block matrix of quasi-order k of the form 
ie ; 
0 
(3.8a) =]: 0 > eet=Zsnd 
0 
ima ©... O 








Finally, let the vector € be re-partitioned into a block representation as follows. 
Let 
(3.8b) W, = (w)), j=(v—1)k+1, (v—1)k+2,..., vk. 


We consider the following three iterative schemes. 


1. Simultaneous displacement (RICHARDSON). Let an initial guess £° be chosen, 
then "+ is obtained from é™ as the solution of 


(3.9) M, W,! +?) = — {e, Wi), + et Wi} + Y, 


where Y, is the appropriate segment of the vector 7. Of course, one has the 
obvious modifications of (3.9) for y=1 and »=gq. 


2. Successive displacement (LIEBMANN). An initial guess "is chosen and one 
obtains +”) from &™ as the solution of 


(3-10) M, Wet) = — {e,W,0) + ea WET} + Y,. 


3. Over-relaxation, successive displacement (extrapolated LIEBMANN). A para- 
meter w is chosen as well as an initial guess &°. One obtain &"*” from &™) as 
the solution 


(3.41) 5M, Wier = — fe, WiP, + of Wei + (1— 2) MW +¥,. 


As for the solutions of the equations (3.9), (3.10) and (3.11) we need only 
remark the following. For k=1, we find that M, is a tridiagonal matrix and is 
easily inverted by a well-known algorithm. For k=2 we may invert M, by a 
modification of the method presented by VARGA [19]. In general, M, is a quasi- 
tridiagonal matrix and may be inverted by the methods discussed by S. SCHECTER 
[18]. 

In order to study the convergence of these iterative schemes one is led to 
consider the following eigenvalue problems (see [12], [/4]). In the matrix M 
of (3.76) multiply each element which is the coefficient of W,"*+”) by 4 and call 
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that matrix Q(A). Consider the values of 4 for which determinant Q(A)=0. 
For example, in the case of simultaneous displacement (RICHARDSON) we have 


AM, & 
er AM, & 
(3.12) Th we +2 =0. 
oH % €q-1 
ef-1 AM, 








Lemma 3. The iteration scheme converges if and only if 
Max|A| <1 


for all A such that det. Q (A) =0. 

Proof. See [12], [14]. 

An important feature of these methods is that they are ‘‘three-block’’ schemes, 
about which a great deal is known. Let 


Ap (k) =Max|A| for the Richardson Method 
(3.13) A, (k) =Max|A| for the Liebmann Method 
Ag (k,w) = Max|A|_. for the extrapolated Liebmann Method. 


We summarize some of the important facts. about three-block schemes. 
Lemma 4. In a three-block scheme we have 


A, = A 
and A, satisfies the equation 
(Ag +@ — 1)? = AR Ay. 

Moreover, in the Richardson case, if 4 is a root of | Q(A)| =0, so is — A. 

Proof. See [8]. 

Thus it suffices to consider Ap(k). We state, without proof the well-known 
result: 

Lemma 5. If the matrix A is positive definite, and the matrix B is symmetric, 
the eigenvalues of det: {AA + B}=0 are real. Moreover 


ik. \(é, Bé)|, 
(3.14) Max | A| = Max EAB) 


where (é, 7) is the usual inner-product, i.e., 
(§,4) = DEN; 


Finally, the eigenvectors span the space. 
It is easy to verify that the matrices — M and — Mj, where M, is defined as 


M, 








ra 
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are positive definite. Lemma 4 enables us to consider only positive 4 and we 
readily find that 


(3.15) Ap (k) = SS 
| (&, Mé) 
1+ Min ‘(Ee | 





where ¢=M— M,. 


4. Estimates for Ap (k) 


Let A and U=U(x, y) be the minimal eigenvalue and associated eigen- 
function of (2.5) normalized so that 


(4.1) ff U%dxdy =1. 
G 


Let U (x, y) € H(4x, Ay) obtained from U in the obvious way while U (x, y)E 


H (4x, Ay) is the function obtained by modifying the values of U at the boundary 
points of G,. Notice that 


(4.2a) U(x, y) = U(x, y) + O(Ax + Ay) 
and : 
(4.2b) U(x, y) = U(x, y) +O(4x + Ay). 


Let & be the associated vector. Then 


6, 8)| =| OS OP (0,4, 0)| +0 [(4x- Ay)] 
(Ax - Ay) 


(4.3) = 


tata + 0(Ax- Ay) 





f UL[U]dx dy 


G 





_ Ax: Ay 
= Ftc ayt A+0(4x Ay). 


Upon a close examination of the quadratic form (&, ¢ €) we find 


a Malin 22. [[Cs.9) Urdedy +0(42-4y)), 
G 


~ Raya Ay") 





To see this, consider a typical term (W,, ¢, W,,,)=J,. We have 


 * —a »» (Brn, wk +1 + Bm—1, vr) Own, vk +1 On vk 
+ DY m,vk On vr+1 Uin,vk 
+) (Brn, vk-+1 + Bu+1,va) On vk+1 On wa: 


Because of the assumed smoothness of the coefficients in L we have 


(4.4a) 1, = ae aoe D Memon Uavn + 0 (Ax + Ay)}. 
Since (&, e )=2 >) 1,, we find 
(4.4b) é, e€) 5 k Aya Tayi {Ax(k Ay) pe Cm, vk Un vk . O(4x , Ay)}. 
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Thus, (4.4) follows because, for fixed k, 
Ax (k Ay) ) 2 emo mon = Sf e( (x, y) U?dxdy + O(Ax Ay). 


Therefore, using (3.15a) we have 


(4.5) Ap (k) 24 — ie + 0(Ax Ay + Ay?) 

where 

(4.5 a) 1, = ff o(s, y) U2(x, y) dx dy. 
Using (4.5), and assuming (3.2), we write 

(4.6) Ag (k) = 1— & 

where 

(4.6a) 0S eS C,(4x + Ay)? 


for some number C;. We consider a sequence of meshs which satisfy (3.2) and 
J is always a multiple of , i.e., 


(4.7) J =kq for all meshs 
and 
(4.74) Ax+Ay—>0. 


Let {g(x, y)}€H (4x, Ay) be a sequence of functions associated with the eigen- 
vectors & of Q[Ap(k)]=0 normalized so that 


(4.8) [g.g]=1. 


Returning to the representatiofi (2.10) we let o be the operator corresponding 
to the matrix 





Ax?+ Ay? 
‘(Ax + Ay)? 
Thus we have 
(4.9) 1, & = & 08, 
and 
(4.9a) [84,8] = ele, 08]. 


As we remarked earlier, the elements of ¢ are bounded. Thus, for all & 
\(é, eé)| Ss C,(&, &). 
Using (4.6a) we find 
Ax?+A 
7 \Cg. Ms g]| SCyCy- SETA” Ue, g]. 
Using (4.8) and (3.2) we have 
(4.9b) |{g.4.e]| SCsle,g] =C 


Thus, we may apply lemma 2 of section 2. Now, the constant C, of (3.13b) 
cannot be less than A because of (2.5a). Moreover, if g°(x, y) is the limit function 


ee ee ee 
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of a subsequence of the {g(x, y)} and {£} is the sequence of vectors corresponding 
to the g(x, y) we have 


G28) = , ascaseeagy {ff ele lett drdy + o(dxay)h 
G 





by the same argument as was used to show (4.4). Thus, we have 
Theorem. Assuming (3.2), we have 





(4.10) Ag (t) 21 — 2S + 0(Ax- Ay) 
and 

(4.14) Ap (k) = 1 -- oe +0(Ax- Ay) 
where 

(4.114) I, ={Je(x, 9) |g|tdxdy 

for some function gcH and 

(4.11) Ao = eee 


Corollary. If a,b,c are constants, then 


= RAIS)" 


(4.12) Ap (hk) = 1 57 


+ 0(4x-Ay) 


Remark. One would expect that (4.12) holds in general. However, as of 


now, it is conceivable that there is a function ecH that makes the dominant 
part of 4.11 greater than the dominant part of (4.10). 

Remark. As we pointed out in the Introduction (4.12) includes the known 
results for the Laplace difference equation in a rectangle. This may be verified 
by inspection of the table on p. 246 of [15]. However, it is necessary to rewrite 
those formulas using the definitions of #,, 3, 4x, Ay. In [16] we studied the 
“‘line’’ iterative method for the equation (2.2) with constant coefficients a, b, c. 
After once more clearing the notational difficulties, the estimates obtained there 
(for a rectangle) may be written as 


a Ay Ay? ” A, 2 
(4.13) 1 a SaAp(1)S1 a. Ay 





where A, is an upper estimate for A which is readily obtained from the variational 


formula (2.5a), and A, is a lower estimate for A which is obtained by Stiener 
Symmettrization (see [17]). 7 

Remark. The lower estimate in (4.13) is not explicit in [76]. However, it 
is easily obtained from the results of that work. 


5. The biharmonic equation 
Turning now to boundary-value problems for the biharmonic operator, i.e., 


(5.1) AAu=0. inG 
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with suitable boundary conditions we obtain similar results. We omit the details, 
but summarize the argument. 

The formulation of the finite difference equations is straight-forward and 
may be found in [2]. The ‘‘two line’ iterative methods are described in [15] 
and [79]. The extension to k-lines (k= 2) is immediate. 

The variational problem for the lowest non-zero eigenvalue of 





(5.2) AAu—Au=0 ; 


with homogeneous boundary conditions corresponding to the given boundary 
conditions may be considered on an appropriate Hilbert space of functions having 
‘‘strong’’ second derivatives, (see [9], [/0)). 

The general argument now follows. Using special ‘‘test’’ vectors we get the 
estimate 


(5.3) Ag (kt) 21 — | A(Ay)* + 0[Ay?(dx + Ay)?). 


Using this estimate we immediately obtain the analog of (4.9b). The compactness 
of the family of eigenvectors follows after summation by parts gives the estimate 


(5.4) Ax- Ay > [et , + 28%, +85,] S Glee). 


As before, because we have constant coefficients, we obtain 


(5.5) Ag (k) 1 — " A(Ayy, k>2. 


It is interesting to compare this results with the estimates we obtained in 
[15] and [6]. 

Let G be the rectangular domain 
(5.6) DD: @a2at, OsysM. 


Let, u:=u(x, y) be the solution of . 





(5.7) AAu=0 inD 


with u and u, prescribed on the horizontal sides of D while u and u,, prescribed 
on the vertical sides. We write the difference equations which approximate (5.7) 
and consider ‘‘two-line’’ iterative methods. 


The results of [1/5] and [76] are contained in the estimate 





(5.8) 1 — $y (Ay)*S Ag (2) S1 — 8A, (Ay)! 
with 

(5.89) A= (ES + (ay 

and 

5.80) ae= |i + (ef 


where yu is determined as the smallest root of 


(5.8c) tan (u/2) = — tanh (y/2). 
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One may readily verify that A, is the minimal eigenvalue of 
(5.9) AAu—Au=0 inD 
u=Au=0 onD. 
It is easy to see that we must have 
(5.9a) A, SA. 


In fact, we can easily deduce this from the difference equations which approximate 
these eigenvalue problems. 

However, the exact value of A may be computed explicitly (see Vorct [20}) 
and is given by 
i2 


(5.10) A =|(Z) + (a0 | 


where 7 is determined as the smallest root of 


t= 7M Ir —14, r2>1 
rz tanh (7 al Vr +1) 
(5.10a) eee EE a 
v2 +4 tan (7/2) 


As we have seen, t=2. Indeed, Voict has shown that w= 122. Since tanhx 
is an increasing function, we have 


(5.44) = tanh p/2 - tanh 1/2 
tan 4/2 ~ tan 1/2 
Since the function 
__ tanh 1/2 
tan 1/2 


is monotone increasing in this range, we find 
M2T. 


Hence, in view of (5.9a), we obtain 


As ASA. 


6. Concluding remarks 


While we developed the discussion in terms of simply connected domains, 
the extension to more general domains is apparent. It is also worth noting that 
while we used a domain G,<G, the argument can easily be applied to lattice 
domains which contain G and converge to G as Ax +Ay-—>0. 

Considering our estimates, unless one finds a really good way to invert a 
k-line matrix, one should use as small a k as possible. That is k=1 for second 
order equations and k=2 for the biharmonic equation. On the other hand, we 
remind the reader that our results hold for fixed k as J]=k-q->oo. Hence, in 
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particular problems where on can readily invert most of the matrix (but not all) 
such a method might be worthwhile. 

If one is interested in the fundamental frequency of a membrane (or 2. plate) 
these results provides a useful tool. As we mentioned earlier, itis relatively easy 
to compute Ap(k) by s‘iaply choosing a guess £°, taking the boundary value as 
zero and observing the decay of &) to zero. In other words, Ap(k) is a maximal 
eigenvalue and may be obtained by the power method. Unfortunately, since A 
is multiplied by (Ay)? [or (4y)* in (5.5)] in (4.12), there will be numerical in- 
accuraccies for small Ay. Nevertheless, this approach should be useful to obtain 
estimates for A. In fact, since most procedures to determine eigenvalues require 
a good ‘‘guess’”’ this procedure could be used — in a coarse mesh — to obtain 
initial guesses to be used in more refined calculations. 

Finally, particularly where one is interested in estimating A, one should use 
small values of k. After all, small values of k correspond to small Ax and Ay 
in the numerical approximation to the integrals of section 4. 
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On the convergence of characteristic 
finite-difference methods of high accuracy 
for quasi-linear hyperbolic equations 





By 


HANS J. STETTER* ** 


Introduction 


Se OMA RMB No se 


While for the numerical solution of ordinary differential equations a large 
number of finite-difference methods have been constructed which approximate 
the differential equation with high accuracy and while°the stability and con- 
vergence qualities of these methods have been thoroughly investigated during 
| the past years!, there exist relatively few finite-difference algorithms for the 
numerical solution of partial differential equations which consist .of more than 
{ a crude transcription of the original derivatives into differences?. Furthermore, 

the convergence of these few “‘high-order’’ schemes has not been established in 
; a rigorous manner in most cases. 


fos chaea Renal 


For non-linear partial differential equations of hyperbolic type in two independent 
variables the only high-order schemes published so far seem to be the following two: 


a) R. Moore in [5] recently succeeded in adapting the well-known RUNGE- 
Kutta method to the GoursAT-problem Uyy=f(x, Y, U, Uy, Uy). 


b) L. THomAs in [6] adapted the ADAms-extrapolation scheme to hyperbolic 
systems in their characteristic normal form with only two different characteristic 
directions, without a rigorous convergence proof. 


In this paper we will construct a large family of finite-difference methods 
for the numerical solution of the problem treated by THomas and establish 
necessary and sufficient conditions for their convergence*. Subsequently, those 
schemes which seem suitable for practical use are investigated in detail and 
their coefficients and properties are assembled in the concluding section. 





* Von der Fakultat fiir Allgemeine Wissenschaften der Technischen Hochschule 
Miinchen angenommene Habilitationsschrift. 

** This research was supported in part by the AFOSR of the Air Research and 
Development Command, European Office, under Grant No. AF-EOARDC-61-21. 
1 Comp.e.g. the book of CoLLatz [J] and the papers by Dautguist [2], [3]. 
2 Comp.e.g. the book [4] by ForsyTHE and Wasow. 
3 The concise meaning of ‘‘convergence’”’ will be explained in sect. 2.1. 
Numer. Math. Bd. 3 23 
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§ 1. Construction of a general class 
of characteristic finite-difference schemes 


1.1. The problem 


We will treat the following quasi-linear system of K equations for K un- 
known functions u«* of the independent variables A and sj: 


K 
dYa*a,u®¥=0,4 i=1(1)K’, 
k=1 


(1.1) 1<K'<K. 


K . 
Da*e,u*=0,4 i=K'+1(1) K, 
k=1 


For a simpler notation we will assume the a** to depend explicitly on the dependent 
variables u* only; this restriction is of no influence on the results to be gained, 
however. 

It is well-known (comp.e.g. [7], [8]) that a great number of hyperbolic problems 
in two independent variables — including the general second-order equation 
P(x, 9,4, bes bys fee» fey» fyy) =O — may be reduced to the characteristic normal 


" form (1.1). Excluded are those hyperbolic 





(-41) (1,1) ‘systems (in more than two dependent variables) 
bar Ng which possess more than two characteristic 
(0) directi I f : P 
(a) irections. In a further paper it will be at- 
tempted to extend some of the present results 
(0) 4 to systems of this type. 
Q 





The Caucuy-problem for (1.1) is assumed 
to be normalized to the following problem (C) 
A~ur0, without restriction of generality: 

(C) Given are the u* on the closed segment 
a, (a) of A+y=0 (Fig. 1): 


Fig. 1 (1.2) w*(a4,—Aa)=w*(a), for —1S5A45 +1. 


We will consider only the part D:={A+m20, |A| <1, |u| <1} of the quadrangle 
|A|<1, |u|<1, in which the solution of problem (C) is at most determined. 
All the considerations of the paper may easily be applied also to the characteristic 
initial-value problem with the u* given on two characteristic segments 4=const, 
resp. 44=const forming a corner. 

For our high-order finite-difference schemes we must be certain that the 
solutions of (1.1)/(1.2) are sufficiently differentiable. We apply a more general 
theorem by A. DovG is [9] to obtain 


Theorem 1 (A. DouGLis). Assume, for s>1, 

a) a*(u)EC® for w:= (a, w2,...,u*%) eT, 

b) |det(a**(u))| >d>0 for nel, 

c) w*(A)EC’ and TEM on (a), 
where Ul is a closed region of the K-dimensional space B*. 

Then in a certain region D*CD, with (a)< D* (Fig. 1), there exists a unique 
set of solutions u* of (1.1)/(1.2) which are s-times differentiable with respect to A and m. 














* @, and @, are short for 0/04 resp. é/é p. 
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In view of later applications we will assume D* to have the following pro- 
perties (which may be secured by proceding to a subregion of the original D*): 

a) D* is closed; 

b) For e*>0 given 
(4.3) w’: = (w(A, uw) + el, ..., w* (A, uw) + e*) ET, 

if (A, uw) € D* and | e*|Se* (k=1(1) A). 

In the following, with each problem (1.1)/(1.2) we will assume that an e*>0 
has been chosen and that D* is the region just described. Within this region 
we will investigate the numerical solution of the given problem. 


1.2. Characteristic finite-difference methods 
Within the triangle D (Fig. 1) of the A, u-plane we introduce a square lattice 
with mesh-size h> 0, Lo: = ; > 0 being an integer (Fig. 2). 
We use the following “notations: 
(1.4) uf ,:=u*(lh,mh) for the values of the true solutions of (1.1)/(4.2), 


Wim for the values gained for u/,, at the point (/h, mh) 
of the lattice by the finite-difference method, 
Te ee & 
10) m2 = (Wim »+ag Meds 
ie k 
(1.5) [yoo =, max | WF, | 


The (/, m) may take values within 
D,:={(l, m)| 1+ m=0, |1| <Lo, |m| SL}; 


D* will denote the part of D, corresponding 
to D* (comp. sect. 1.1). 

While the w* may have only pairs of 
integers 1, m as subscripts, the /,m may be 
any real numbers from D¥ with the u* in 
accordance with (1.4). Subsequently we will 
regard certain numerical values in points of lattices originating from the one 
described through a translation by jh (0< <1) either parallel to the A- or 
to the w-axis. These values will hence carry subscripts /— n,, m, resp. 1, m— Mo, 
l and m being integers. 

In a characteristic finite-difference method — as they are exclusively considered 
in this paper — only values along /=/, and m=™m, are used for the computation 
of a value at (J), m,). We will call a characteristic finite-difference scheme “‘of 
order N’’ if only values at the N preceding points on each characteristic contribute 


to the value at (J), mp). 





Fig. 2 


1.3. Generalization of known characteristic finite-difference methods 
The well-known Massau-scheme which is obtained by replacing the derivatives 
in (1.1) by forward difference quotients (comp.e.g. [7]) has been proved to be 
convergent by several authors (e.g. [10], [1/]), it may even be used to prove 
existence and uniqueness of the solutions of (1.1)/(1.2). 


as” 
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A much used “improvement” of the crude Massau-method consists in using 
mean-values for the arguments of the a‘* or the a‘* themselves (comp.e.g. [4], 


[7], [42]): 


1st modification: 


K 
> aft (Pam Tas | (wh — whim) =0, 15K’, 
(1.6) pot 
K . 
Yalta et). (thn — Whe) =0, > K’; 
k=1 2 


2nd modification: 


es | een 
E [ai*(00,,_) +4'* (1 ,m)] (hm — hsm) =0, SK’, 


(1.7) 


K 
, [a (1, + a** (0, m—1)] + (Wim — Wma) = 0, > K’. 

(1.6), resp. (1.7) are, in general, non-linear equations for the w,, which are solved 
by an iteration procedure using the lower iteration level for the a‘* and starting 
with the Massau-value. In [13] a NEwrTon-method is used for solving the 
equations. 

Strange enough, no rigorous investigations of the convergence in the large 
of this ‘‘mean-value method” seem to have become known so far, as is also 
emphasized in the recent monograph [4] where the passage on this method 
begins with the words “Experience has shown ...”’ and ends with “... but no 
theoretical analysis of this point seems to exist’’. From our general considerations 
in §§2 and 3 we will be able to derive all the desired information on the mean-value 
method (comp. Theorem 3, sect. 4.3). 

To conceive of a generalization of this method we interpret it in the following 

way: 
W/m — W}_1, iS a good approximation rather for h - 0,uh_, ,, than for h - 8,u}_1 m- 
Therefore it is natural to use an approximation for a**(u,_ j,m) as coefficient. 
Using this idea we may expect to receive a reasonable high-order scheme in the 
following manner (N= 1): | 


N 
Let >) «,w}_,,» be an approximation for h - 2,u}_;,,, then choose y, to make 
v=0 


o 
> 7,1 -»,m approximate u}_;,, (0S7<N). (The selection of suitable «,, y, and 7 
v=0 


will be explained in sect. 4.1.) 
Thus we get the following algorithms: 


1st modification: 


N N 
Dai 2 Yr 10). sl} 2% Wi» = 0, is kK’, 


(1.8) 
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2nd modification: 


E/E rama] Dawtw =O, §SK’, 

(1.9) k=1'v=0 
>| E>, a’* (w, meal Da, Wh m— »=0, +> K’. 

k=1'v=0 


For y)=0 the equations (1.8), resp. (1.9) are linear, for y)=- 0 they are generally 
non-linear. Their solution will be discussed in sect. 2.3. Of course, we now need 
initial-values for the numerical computation on N diagonals of our lattice; we 
will not consider here how these may be obtained (TAyYLor-series expansion or 
other methods). 

Algorithms of the type (1.8), resp. (4.9) seem not to have been described 
so far. 

Another manner to construct a characteristic finite-difference scheme of high 
order is the following, a special case of which was first described by THomMAS 
([6], comp. also [4)). 

Let 


N, Nz 
(1.10) Da, f(x —vh) —h- > 6, f'(x —vh) = 
v=0 v=0 


be any numerical integration formula for ordinary differential equations, i.e. let 
the left hand of (1.10) be of O(A?+") with p=1 for sufficiently differentiable f(x). 

Let B; (n=0) be the first non-vanishing coefficient in the second sum of 
(1.10). Then (1.10) may be solved for /’(x—*%h) and the resulting expression 
may be used as an approximation for this derivative. Deanting by wh», Tesp. 
wf, numerical values approximating h - 0,u/,, resp. h- 0,,Uj,, We arrive at the 
following equations: 


ee N, 

D3 a** (w,_ 5, m) (> 0, Wh», m “7 
k=1 v=0 

K N, 
ze * (WW), m— a) )+( Sa, wh mr | 


B, wt _.,m) =0, i<k’, 


— 


(4.41) 
‘ B. Ye) =0, i>. 


aM Mz 


Upon solving (1.11) for the w/,, one has to ails the values of #/_; , and 
wf m—% by application of (1.10). Values of w, #, and w have to be available on 
a sufficient number of lattice diagonals to get the computation started. 

Tuomas, in [6], had described this procedure with the Adams-extrapolation 
formula for (1.10) and N,=3. No rigorous proof of the convergence of (1.11) 
had been given. “‘THomAs-schemes’”’ with other integration formulas for (1.10) 
seem not to have been described so far. 

In order to obtain results for both classes of, schemes just described in one 
effort, we prove our theorems for the following combined procedure which may 
be regarded as a further generalization of both algorithms: 

We assume that the values of # and w are computed at equidistant points 
which result from the translations of the lattice mentioned at the end of sect. 1.2. 
Starting from the integration formula 


(1.12) Sa, f(x —vh) —h- SB f(x — Nh —vh) =0 
v=0 r=n 
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we proceed as before with the only difference that we now have to interpolate 
for the value of the coefficient at (1 —)—%, m), resp. (1, m—n )—n). The result 
is the following system: 


1st modification: 


K . N; N, N; 
ps ai*(> ¥o'0—»,m):| 2 Ot, Wh», m — ay Bott nnn] =0, t< Kk’, 
(4.13) k=1 v=0 v=0 v=n+ 
gc .4% N, , 
& a*( ¥ 74101 m+) *| 3 Oth me — PY Bs Wi m— wil =0, t>K’; 
k=1 v=0 v=0 
2nd modification: 
‘ix ae N, 
»» aga 3 Seon a ¥ Bethan] =0, §SK. 
(1.14) k=1'v=0 
x ¥ Ya * (1, n—») [> 2 a, wh m—v yak B, wt m—t%— | =0 t>K’. 
For # + N, each step has to be completed by computing 
Ot n,—i, m — ap a, wh», mn > B, a | , 
(1.15) — k=1(1)K. 


N, . 
> B, w), n-n->| , 


Wf —m—hi — Ide Wh n— -y 
v=0 vy=n+1 


Clearly, we obtain (1.8)/(1.9) for #=N, when.the # and w are superfluous, and 
(1.11) for m»=0. In sect. 4.5 we will see that even the general scheme itself may 
be of practical use. 

For the sake of brevity, we will display the general theory for the first modi- 
fication (1.13)/(1.15) only. The fundamental Theorem 2 of sect. 3.1 holds just 
as well for the second modification (1.14)/(1.15); the proof of Theorem 2 for 
(1.14)/(1.15) is completely analogous to the one carried through in §3. 


§ 2. General considerations 


2.1. Stable convergence 


To characterize the property of an algorithm essential for its suitability to 
produce an approximate solution of the problem (1.1)/(1.2), we introduce the 
notion of “‘stable convergence’ >. 

Let us mark with a tilde all values obtained from actual numerical compu- 
tation. We assume that already the starting values for the computation contain 
numerical errors: 


Wh m =U m+ OF m, 
(2.1) marth otha + Sw 


forl/+m=y 
with suitable »y=> 0. 


5 This notion was introduced in a similar manner by Dautguist in [2] for ordinary 
differential equations. 
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Furthermore, the numerical solution of (1.13)/(4.15) will introduce errors which 
we assess by the residues 


ial Sa x aad NS Lh 
: da (> Yr10;—».m)°| 3 Hs, — D> Bit n,m t< k’, 
ni . k v=0 s v=0 yv=n-+1 
2% wit ae Ss L 
da (Xy,15,0-.)°| 2 aX, W) m—» — b B, ii mn») > a3 
(2.2) k v=0 v=0 y=n+1 
N, N. 
so. 1 , ~k 5 aL 
th m= Opn am Ba Zz a, Wi», m — p B, itn, -»,m| - 
iy are k=1(1)K 
2 4 es N, ¥ = 1(1) K. 
TN, m * = V1, m—my— i — Be 2%, i, m—» — 2 By ts, m—my—v , 
v= v=n 





The 9, 8, and # are called “initial errors’, the n, 4, and % “computing errors’’. 
The numerical realization of an integration procedure for a given problem (1.1)/ 
(1.2) is called of class P(e, p’), e>0, p’>0, if the following relations hold for 
0<hSh, (with some h,> 0): 


|r| sen”, dt |se-k”, — |dh,| Sek", 


‘ : ? for all (1, m) € D¥. 
Intnl Se-W+, ota SeWH, [ital sears, Tw OMCs 


23) | 

Stable convergence: Let ®j,(h) be obtained from the initial values (2.1) by 
the procedure (1.13)/(1.15) with a mesh-size h, with computing errors (2.2). 
Then the scheme (1.13)/(1.15) is called stably convergent if there exists a function 
P(h; €, p’), defined for 0< ASA, continuous and increasing with respect to h, 
for which 
(2.4) sup sup [1,, (2) — th, |S PC; &, f’) 

PB (e,P’) (l,m) € DE 
and 
jim, PU; neyo. 

(The first supremum is extended over all realizations of class }(e, p’).) 

Stable convergence of degree® p: A scheme is called stably convergent of 
degree p, if it is stably convergent and if there exist a positive number p and 
a constant P>0, for which 


(2.5) Plhie,p')SP-h? for p'=>p, 0<hShy, &Seq (with some e> 0). 
Often this situation is denoted by 
[* (2) — uf =O(H"). 


One has to be aware of the fact that this definition practically excludes the 
consideration of pure round-off errors because of (2.3). Systematic computing 
errors arising from the non-linearity of (1.13) are usually obeying (2.3), however. 

In the following, we will omit the tilde on the @ although our values will 
always be assumed to originate from a numerical procedure with errors (2.1)/(2.2). 





6 Often the term ‘‘order’’ is used with the same meaning. In this paper we use 
“order” with the meaning defined at the end of sect. 1.3. 
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2.2. The truncation errors of (1.13)/(4.15) 


We assume the following approximation relations to hold for the coefficients 
a,,B,,y,, and m» of (1.13)/(1.15) with sufficiently differentiable {(x) (~ denotes 
“interior points” in the sense of the Taylor-formula) : 


N, N. 
(2.6) Ya, f(x—vh)—h- Dd B,f'(x —nyh —vh) 


v=0 v=n+1 


=hB;f'(x — mh —Hh) + C, f? (x) hh, 122; 
(an) Sy f(e—vh) = f(x — mh —AW) + Caf”) A, yA. 


v=0 


Accordingly we will always assume s=max(,, $,) (comp, Theorem 1) for our 
problems (1.1)/(1.2) to have u*(4, u) €C™*(?»?) for (A, u) € D*. 


The following bounds will be used: 


i 





ja**(u)| SH and |aj*(u)|:= <H, for nel, 








(2.8) 
|u| <U, and | aw] SU, tor” (ped, r=0(1)s. 
Defining as truncation errors t, resp. t or t, as usual the residues arising for a 


sufficiently differentiable solution u of (1.1)/(1.2) upon its substitution into 
(1.13)/(4.15), we may gain the following estimates for their absolute values: 


isk’: 
. . K . 
| TZ), m| = » [a** (11; _ 4, — i, m) m + 24 (fi) - )-C, ofa! hPe) x 
k j=1 
(2.9) x [h Bs 0; Ul _n,-® i,m + C, of u Byer) 


< K[KA, C,U, BU, het? + HC, U,, hes O (h*?s) | 
<: Th?** for sufficiently small h, with 
(2.10) p:=min(p,, p, — 1); 


the same result is obtained for i>K’. In obvious manner we get from (1.15) 
with the use of (2.6) some constants T and T: 





=1(1) K. 


(2.44) year T e+}, 


| ti m|< T hP*}, 


2.3. Solvability of (1.13) 

1. The linear case (y»=0). The solvability of (1.13) for yy=-0 is not*a trivial 
consequence of det (a **()) +=0 since the arguments of the a’* in (1.13) differ 
for 1S K’ and i> kK’. 

Lemma 1. Let a) (2.7) and (2.8) hold, 

b) |det (a**(u))| [a> 0 for uel, 
C) vp wy — Up wl] SCH? with p=1 for l'+m'<1l+m. 
Then (1.13) is solvable for the Wh m if h is sufficiently small. 
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Proof. Assumption 6) guarantees the existence of an e>0 for which 
| det (a**(u) + e**)| > if je*|<Se, uel. 


Assumptions a) and c) show that the arguments of the a** in (1.13) differ from 
Uy — ny —F, mi» TCSP: Uy 4» —,,,—-« by O (h?*) +0 (h?) SO (h). u being a differentiable function, 
Uy m—np-a differs from My i,m by O(h). Because of the boundedness of the 
partial derivativesof thea** weconclude that the a** of (1.13) differ froma**(n,_ ‘ann od 
by O(h) which is smaller than e for sufficiently small h. 

2. The non-linear case (y9+0). We will prove the existence of a unique 
solution of (1.13) in the veaty of u,,,- For this end we apply an iteration 
procedure starting with some ip lm: 

Lemma 2. Let a) (2.7) and (2.8) hold, 

b) |det (a‘*(u))|>a>0 for nel, 

Cc) oes ae Uy ml Ss Che, [1B p-— ne — Fi, me’ —h 0; Uy ny — Fi, ml Ss Ch, 
and |p wna — AO My w—n—al| Ch? with pr" 
for l'4+m'<lim, 

d) [FO — Uj ml SCoh”* with 15 p)Sp. 

Then within a certain vicinity B, », of Wy,» there exists a unique solution Ww, », of 
(1.13) of h ts sufficiently small. 

Proof. We use a fixpoint theorem for iteration procedures, e.g. the one by 
WEISSINGER (comp. [1], p. 36—38). 

Using the abbreviations 


Ny 
a'*(yor + 3 Yo 101—»m)> 1S’ 


Ww) := , ie | ; 
a'*(y, ww + LY Wr sae} t> K’ 
0, isk’ 
UW (w):=7 . Ny By 
ai* (yg w + LY 1), -»)) 1> K’ 
Y (1) := — “s [2 (w)} + W, (ww) =: (@** (ww) 
we may write (1.13) as 
a= — 2 [Sen 2 18, ng—vzm| + BE (1, gy)» A 1, p =! Spy (04, 
v=1 =n+ 
with 
N, N, 
AW, mn: = eo, (10) an - v — Wyo nists p > Bel, m—no—» ee 
v=1 v=n+ 


and |4 1, ,,|<C,h by assumptions a) and c) for sufficiently small h. 
The existence of &- for sufficiently small h and || —u, ,,|=O(h) is proved 
like Lemma 1. The @‘* and their partial derivatives are bounded by assumptions 


a) and b); the latter bound is called A. 
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To show that 
(2.12) Wy, mm = Sp, (10z, om) 
has a unique solution in a certain — Bm» we first remark that 


[Sim (B) — WB, | SCOR 


for sufficiently small h, with some C®°>0. (Follows from assumptions a), c) 
and d) via the triangle inequality.) We now choose for &, ,,< B* the complete 
region 

B, mi = {r0| || ey: Uy mil S (Cy + 2C°) hy}, 


where h, satisfies «) all smallness assumptions made so far, 
B) (Co + 20%) hy S e*, ie. B,,,¢ 1 (comp. (1.3)), 
Y”) ¥9K* Hy Cyhy S2<1. 


Then S,,, is Lipscuitz-bounded in %, ,, with L-constant @: 


ay AD). a~ 42) 


[S1,m (HB) — Sy, (8) = [(R (0) — WX ()) A wy, 

<y, K*A, | —{8]-C,h <2- |B —B] for h< hy. 
Furthermore 1D, m CBr, m and the well-known condition that 1B, in does not leave 
¥, » during the iteration process is satisfied. Therefore the fixpoint theorem 
yields the assertion of Lemma 2 and the fact that w,,, may be obtained from 
1D, im by the iteration - 


(2.14) B= Siu ("W,), #==4,2,.... 


(2.13) 


Remark. Practically it is sufficient to repeat (2.14) until 
(2.15) IB, mp — 1;, || =O(h?*1) with p from (2.10). 


Lemma 3. Under the assumptions of Lemma 2, (2.15) holds after p—p)+1 
iterations (2.14). 
Proof. By (2.12), (2.13) and (2.14) 
(0) 


IO, an at 1, ml = — O(h) - "io, i W,, mll = 0 (h’) 5 10; mn et Ww, nl 
=O(h’) (a meat Uy sll + |; on vie: Uy ml) . 


But Theorem 2 — the proof of which does not make use of Lemma 3 — will 
show that |v, ,,—1;,,/=O(h?). Thus by assumption d) of Lemma 2: 


1B,  — 0, | =O(A+%) =—O(KP*?) if r=p—pP +1. 


2.4. Bounds for the solutions of linear difference equations 


‘Let A be a linear difference operator with constant coefficients: 


N 
at PS & 





eee: 
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The eigenvalues.z, of A are the N zeros of the polynomial 


N 
A,(2):= Da, 2”. 


Without proof we cite the following well-known facts (comp. e.g. [14/): 
Lemma 4. Let x, (L=>N) be the solution of Ax,=e, with the initial values 
x,=X, (v=0(1) N—1).. Then 
N-1 ! if each |z |<1 and 
G %,| + 6, F ; et 
2! | 2! | Ao (zy) + 0 af EA =1; 


F [,max_,|%| + max |e,|], if each |z,|<1, 


(2.16) |x,| < 


with some constants G and F. 


§ 3. The convergence theorem 
3.1. The theorem 
Theorem 2. Let the following assumptions hold 
a) with regard to the problem (1.1)/(1.2): 
(A1) #@(A)EC® and GET om (a) 
(A2) a*(u)EC® for uct 
(A3) |det(a**(u))| >d>0 for uct; 


with s=>max(p,, p2), comp. (2.6)/(2.7), 


b) with regard to the finite-difference scheme (1.13)/(1.15): 
(A4) The approximation relations (2.6)|(2.7) hold. 


Then the following two conditions are sufficient and necessary for the stable 
convergence of the numerical procedure (1.13)/(1.15): 


ah 
(S1) The zeros z, of Ag(z):= >) a,2™'~” satisfy 
v=0 
\z,| 1; Aolzv) =O tf |zy| =1; 
Ny 
(S2) The zeros %, of By(z):= 2,B,2%*~” satisfy |z,|<1. 


Furthermore, if the realization of the computation is of a class ‘8(e, p') with 
p'=>p:=max(p,, p, —1) then the convergence is of degree p. 


Remark. Since (S1) and (S2) are typical stability conditions while (A1) to 
(A4) may be called consistency conditions in a wider sense’, Theorem 2 is nothing 
more — but also nothing less — than an adaption to the non-linear system (1.1) 
of the well-known general theorem for linear equations (comp. e.g. [15]): 

If a finite-difference scheme is consistent then stability of the scheme is sufficient 
and necessary for (stable). convergence. 





7 (A 4) is the consistency condition proper. 
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3.2. Prooj of the convergence theorem 


We will directly prove the more specific and interesting assertion which 
includes the degree of convergence. It is easy to see from this proof that without 


the assumption ~’=> the degree of convergence is #’ which proves the first _ 


assertion. 
1. The error equations. We use the following abbreviations for difference 
operators along a characteristic: 





N, = N, 
Se k i Fw k 
A, Wi, m2 = 2 %y Why, m> A, Wf m= 2 De, Why, ms 
v=0 0 y=1 
k <a k B afk = k 
» ay , , de. td 
(3.1) ‘ B, i m >= 2 By Wi_n,—», m> B, Wi m2 = > B, Win», m> 
v=n v=ni+1 
‘ Ny k 
I; Wis m , ave Wi—», m+ 
v=0 


The meaning of A,,, A,,, B,,, B,,, and J}, is analogous. 
Furthermore we set 


ee k 
U1, m+ = Wim — 4, m> 


a 


‘k 
UL m e 


.— fk k it ae k 
= Wim —hO, Ui; m, 1, m= Wm — HO, Ui, m- 


“Interior points” in the sense of the Taylor-formula are always marked by 
without more specific distinction. 

We regard only the equations along « =const (tS K’) since the corresponding 
relations for A=const arise in an analogous way, and therefore omit the sub- 
scripts of the operators (3.1) and of 2 and the second subscripts of the function 
values. All sums without explicit limits run from 1 to K. 


As usual (comp. [4], p. 53/54) we form: 
Aj:= > {a**(C'w,) (Aw — Buf) — a’* (Pu) (Auf — h- Beauty} 
k 


= D{{a'* (IP w,) — a'* (Iu) (Aut — B dub) 
k 
+ a**(I'w,) - (A wf — Bo?) — (Auf — 2B auf))} 
(3.2) = 2 {(A ati} + I’ dif) vt — Bat} vt}, 
where 


aj*:=a'*('w,),  of*: = Yai ('@) (Auj —AB dui), 
] 


and the brackets around a subscript protect it against the difference operators 
(3.4). 
With 
opt = aft + 20 oft, 
Xo 
we obtain finally 


! ik .k A ik .k Dp ik ’k 
A= A Deny — Addo oe BD) ai vy - 
k 


| 








can SRO li ei 


ireieds on. Balled Nr 
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Considering that by (2.2) and (2.9) 4j=nj—1tj=:0} we have 
(3-3) AXcwu vy = =Ax bi i+ BY at + gj. 


“Note that the right hand of (3.3) does not contain v}! 


With B; (jt — t*) =:d* we obtain from (1.15) formed for tw and u: 
(3.4) Buk =Avi+oF, k-=1(1)K. 


If % + N,j, i.e. if the operator B is not ‘“‘empty’’, we need a further transformation 
of (3.3).. By (3.4) and (3.2) 


BR Sat —BYagdt+ Zaitd 


—P Ubi +o}+ Dai" df. 
This leads to 


BD aise =By dt — at) G— 2. 4 8D bit, | + ¢ Blo} + Des), 
with /:=1+4+% +m, and [.] protecting only against J" but not against B. With 
G:=0' + — : 7, Boh + ar #) 

we obtain the final form of the error equations: 
(3.5) Adee vu; = AD oie vy — aE Dt | + Ba —at)i +5}, is k’, 


(3.4) Buf=Avi+dh, k=1(1)K, 


and the corresponding relations along characteristics A=const. 

Remarks. 1. Using the mean-value theorem to obtain (3.2) assumes that the 
ww lie in 11, too; comp. sect. 3.2.3. 

2. To obtain (3.5) we assumed that the v,_,,_, have actually originated from 
(3.4) which is not true for some initial diagonals. We will take this fact into 
account in sect. 3.2.2. 


2. Estimates for the solutions of the error equations. We regard B- 5) asa 
system of linear difference equations for the linear combinations 2 of" ae UE mm: 


l for is K’, 


6 A em a= kw ith = 
(3 ) n 2% )%, 41, ” - 4 for i>K’. 


The inhomogeneities ¢j,, contain vf and dv} _»,-a,m'» TSP. UP w—n,—% With 
l’+m'<l+m only 

Once more we consider only the case 1<K’ explicitly and omit constant 
subscripts. 
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The decisive step is now to form the solution of (3.6) by superposition from 
the solutions of difference equations with constant coefficients: 


F 
Dei" GT =y it 2 of 


n=N—m+1 
where 


A,ti =e, 6,,, with initial values ,7‘= 2 ohh yt 

Atm dt, with inltil values 2m Sit — deg 1°78 me 
k 

1+m=N:=max(N,, N,, N,) denotes the first diagonal actually computed from 

(1.13)/(1.15). 


Thus, from Lemma 4 and condition (S1) we obtain: 


Ziel Sly wlll +B ll 


(3.7) N-—m-—1 n—1 . - 
<c| > ln mis| + |ev- al oF Z ( > | nty| +[él)). 
v=N—m—N, n=N—m+1 ‘v=n—N, 
We introduce bounds for the errors: 
| UF wl s V,, 


; , for ’+m=n, 
|e, —a, m'| = V,, and | UF, —n,—a - V,, , 


the sequence of the V, and V, is assumed to be non-decreasing: 
(3.8) Vga Wa Kay. 


By employing (2,6)-—(2.11) one obtains® the following estimates for sufficiently 
small 4, with each bound M and S being of O(1): 


(3.9) \oi*|<aM,, |d*| <M, 

(3.10) |aj*—aj*,|<hM,4+MiViin, |d*—c*s|S4M4+M,V,.,, 
aj] < SHP*?, [atl SS HPT, [af] < S' HPT 

The estimates on the ¢ make use of the assumption p’=>#, comp. (2.3). 


From these estimates one obtains8: 


N-—m-1 


Dbl] SM KM Ve, 
n—l 
2 | nfy| SAM Vy 5 m— 1+ My Vous Vinee 1» 


|e | 4M," +m— i+hM, Yo+u-~ 1 + M, Vos m- 1 Venn + S- dP, 


The estimates for Pace m UL, al obtained by introducing the above estimates 


into (3.7) may be turned into estimates for the v} » themselves: 


8 The straightforward but tedious detail estimates are omitted for the sake of , 
brevity. 

















> 
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By Lemma 1 and assumption (A3) the determinant of (aj, =U (tw, ,) (comp. 
the proof of Lemma 2) is bounded away from zero for antticiently small h and 
if ||,» — My, m|| =O (A) in the case y» +0 (comp. sect. 3.2.3). But |cj.*, — aj*,| =O (h) 
by (3.9), therefore we have for sufficiently small h 

|det (c}*,)| =a’>0 for (l,m) cD*, 
Hence (c}*,)"! exists and we need only multiply the estimates for IZ cj, 2, th | 
by the bound for its norm in the sense of (1.5) to obtain the desired estimates 
for the v},,. Combining terms of equal structure we finally have for sufficiently 
small h, with D,=O(1), for NSLSL*:= max, (/+m)s< > 2: 


(i, m)ED, 
—1 


Vi S Dy L hPt* + Dy (YW_ + Vy_1®) + 4D, > ( Wn + V,) 
(3.11) suit TT 
+ Ds 2 Vian + Vy). 

Furthermore, from (3.4) we get by application of Lemma 4 and condition (S2) 
with D; =O (1): 
(3.12) Vi <= Do h?t* + DiVy-1+D2y,. for NSLSL*. 

3. Inductive evaluation of the estimates (3.11)/(3.12). The proof of the sufficiency 
of (S1)/(S2) for stable convergence of degree ~ 13 completed when we are able 


to show: 
There exist two constants E, and E£, for which 


(3.13) V,<E,h? e®*" for sufficiently small h and L < L*. 
The explicit assertion of Theorem 2 follows immediately from (3.13): 
P(h; €,2') SVipe SE, hee Sc Ee he =P’, gq.e.d. 
At the same time we will find that 
(3.14) Vi < Egh?e™"" for sufficiently small h and L < L*. 
We shall prove (3.13) and (3.14) by induction: 
Let D be fixed, 0< D<1. Then set 
Ey = max [6(Dy + D, &)/D; &9] 
(3.15) Eo = max [Do + Dj &9 + Dz Ep; & | 
E, =3 (Eo + Eq) D,|(D Ey). 
For h we demand in addition to any previous restrictions: 


€9 from (2.5), 


p-1 2D, : — 
(3.16) h = >, EE,’ with E,:=e™, 
3. re... a 
G47) ~ Ds Ey(Eg+£o) ’ 
(comp. (1.3)). 





(3.18) 


® This term takes care of the exceptional cases mentioned in remark 2 of sect. 3.2.1. 
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From (2.3) and ~’=>p we have eres ae ene the validity of (3.13) and (3.14) 
for Vy_, and Vy_,, v=1(1) N. 

Now we assume (3.13)/(3.14) to hold for each V,, resp. V, with n<L—1, 
L<L*. Then from (3.18) and (1.3) we conclude tw, ,,€ 1 ford+m<L—1. In 
the case y)+0, from Lemma 2 we may also conclude tv, ,,C%, .,< Ul for /-+m=L. 
These facts had been tacitly assumed throughout the previous parts of the proof; 
comp. remark 1 at the end of sect. 3:2.1. 


Furthermore, from (3.13)/(3.14) we find (geometrical series!) 


L-1 E,hL 
SY Wat Ve) < (Eq + Eo) bP? o. 
n=N—-1 zy 
(3.19) Saif an 
XY W2+VVa) < Eo (Eq + Ej) n2e-1 £ 
n=N-1 2E, 


Using (3.8), (3.11), and (3.19) we obtain 
V;, (1 — Ds (Ey + Es) Ey h?) 
< 2(Dy + Dy &) h? + fetes (Dz + PaHoBe ppt) pp ofirt 
and by (3.15) —(3.17) 
(3.20) Vi, < E,h? e™**, . i.e. the inductional assertion. 


From (3.12) we obtain by (3.15) and (3.20) the assertion (3.12) for the next 
larger L. 


Remarks. 1. The constants (3.15) are by no means supposed to be realistic 
bounds for the error actually occuring in a computation, they were designed 
purely for the purpose of the proof. 

2. (3.16) makes sense for >1 only. This is no intrinsic restriction but arises 
exclusively from the convenient but very wide estimate (3.10). Since, however, 
the only interesting case of =1 is the MAssAu-scheme whose convergence is 
well-known, it was not attempted to sharpen this estimate. 


4. The necessity of conditions (S1) and (S2). 
1. The necessity of, (S1) may be shown by exposing counterexamples: 
If there are zeros of A,(z) outside the unit circle we take the system. 


0,u4=0, 8,u®=0. 
Should there be only zeros of higher order on the unit circle, we consider 
é,u4=0, u?- dui + 0,u* =0 
with uw1(A4)=q4, g>Oconst., u“*(A) arbitrary, 


which leads to 0,,u? ro qu*=0. 
The proof that (S1) is necessary for the numerical integration of these ordinary 
differential equations to be stably convergent was given by DAHLQUISD in [2]. 
2. A contradiction to the assumption of stable convergence in case of violation 
of (S2) is shown in the following way: 
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By the results of sect. 3.2.1 and Lemma 4, we may conclude from ||vy. ,,| =O (h’) 
along m= mz, for 1’ = — m,(1)/: 


(3.24) 1%). mall = {0 (h*) if (S2) is valid, 


O(h?—*) or worse if (S2) is violated. 
On the other hand, from |, ,,,| =O (h?) for /’=—m,(1) we may conclude 
(3.22) |, | =O (A?) or worse. 


This is due to the term B 2 ( (ati; — ay") vf in (3.5) after summation over /’ accord- 
ing to (3.7). 

(3.21) and (3.22) are contradictory if (S2) is violated. 

Remark. In the case of constant a‘* obviously the necessity of (S2) disappears. 
Then, by (3.5), the errors #* do not influence the errors v* at all. Thus it should 
be possible to construct an example with a violation of (S2) where the w* converge 
stably towards the u* while the w* and w* diverge! 


§ 4. Application to particular schemes 


4.1. The determination of the coefficients for (1.13)/(1.15) 


We have to determine the coefficients «,, 8,,y,, and m) in (1.13) in such a 
way that the approximation relations (2.6)/(2.7) hold with the highest possible 
values of #, and p,. For the following considerations we replace the translation 
operations in (1.13) by exponential functions of the differential operator 6 (a 
convenient abbreviation for TAyLor-series, comp. e.g. [/6]): 


f(x —vh) =e-*"" f(x). 


This converts (2.6) into 


Ni Ny 
(4.1) Da,e7"**— hde~™** > B,e-79* =O(h”) 
r=0 y=n 


where 6=0 now represents an indeterminate. 
With the denotations 


ee —sz=:140, hd=Inz, O(h)=O(z —1)=O(0), 
we obtain after multiplying by e’®" (N=max(N,, ve 


N 
DX % (1+ 5)"~" — In(t +2) (1-+0)" "DB, (1+)" 
(4.2) gies ~ 
=: Ye, (0, By.) 0" =O), [0] <1. 
p=0 
Naturally we take the branch of Inz with Ini =0 and slit the z-plane along the 
negative real axis. Our conditions on the «,, 8,, and m» are now: 


(4.3) ,,(%,,B,,%) =9 for pw=O(1)p,—1. 


(4.3) is linear in the «,, 8,, but a polynomial of degree # —1 in my. 
Numer. Math. Bd. 3 24 
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Case 1; n#=N,. This was typical for our generalizations (1.8)/(1.9) of the 
mean-value method, here N, = N. Using the abbreviation k: =% +n, and assuming 
B;=1 (all the other £, vanish!) we show 


Lemma 5. a) For arbitrary k one has p},=N-+41 tf the a, are chosen as 


(4.4 ahs) =O (—1)"(!) Ba 
where ae 
(4.5) P,(2):=3--(,44): 


b) One has pj, =N-+2 if and only if k is a (real) zero of P,(z). 
Proof. The term In(1+¢)-(1+¢)%~* occuring in (4.2) under our assumptions 
may be interpreted as 


(4.6) nH) +E a Sree a Ne 
P,_,(N—k) for |f|<o)<1. 


Me 


pw=1 


Upon substitution of this expression into (4.2) comparison of coefficients leads 
: (4.4) and assertion a). From wy,,—— BR,(N —k) we have assertion b) since 
B,(N —2z)=(—1)" By(2). 
Remark. From (4.5) one concludes easily that B,(z) has N simple real roots 
x, with 


(4.7) y—1<%,<9, v=1(1)N. 


Case 2: mg=0. This was typical for the general THoMAs-schemes. (1.11). Here 
we refer to the results of DAHLQuIST [2] for ordinary differential equations: 


Lemma 6. a) For arbitrary «, (>) «,=0) there is a unique set of B, rendering 


p,=N-+2. For arbitrary B, there is a unique set of «, rendering p,=>N-+1. 
b) If condition (S1) on the a, is to be satisfied (comp. sect. 3.1) the following 
relations hold: 
PbSN+2.f Bo+0; SN+1 tf Byo=O. 
Case 3; No restrictions (general scheme (1.13)). Introducing coefficients a, 
and f, by 
N & ; 
Dia (t HEN" =: Baye” (a =0!), 


yv=1 


py (1+¢)"-"= = DAe, 


we obtain from (4.2) with (4.6) 


N oo N 
Dayo? — Y P,a(— mo" DBL =O"). 


v=1 


at eee ~~ 








in i = Nh, aaa RE ae ORS 
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Enumeration of parameters leads to ), [2N +2. For p,=2N +2, conditions (4.3) 
yield for w=N+1(1)2N+1 ‘ 


N 
2B: Prva-o(— Mo) = 0, A=O0(1)N, 
which presupposes 


(4.8) det (Py s,—»(— %)) =9, 4 = 0(1) N. 


Applying the previous considerations to (2.7) for the case of m)=+-0 — which 
poses exactly the LAGRANGE interpolation problem —, we find that the y, are 
uniquely determined after a decision on N, and on the vanishing or non-vanishing 


of y)». Furthermore 
N3+1_ if 0, 
(4.9) ate ~ 


N, if y=. 


4.2. Transformation of conditions (S1) and (S2) 


We map the z-plane (slit along the negative real axis) onto a w-plane (slit 
from —1 to +1) by 


(4.10) w= Sth ge wt 


transforming the interior of the unit circle |z|<4 onto the left half plane Rew<0. 
After formally replacing N, and N, by N=max(N,, N,) in the polynomials A, (z) 
and B,(z) of (S1) and (S2) we define 


= Ag(w):=(w — 1)" 4,(2= 2), 


(4.14) 
= B,(w):=(w — 1)%-* B, (S++). 


w—i1 


-s sh= 


(S1) now demands that all zeros of Ay are in RewS0 with only simple zeros 


on the imaginary axis, while (S2) demands all zeros of B, to lie in Rew<0. 
This gives us the following necessary criterion for the satisfaction of (S1) and (S2): 


For the satisfaction of (S1) and (S2) it is necessary that (possibly after 
(4.12) multiplication by —1) all coefficients %, are non-negative and all coefficients 


B, ave positive. 


(This follows from a well-known theorem of algebra.) 

To facilitate the application of this criterion we derive relations between 
the &, and certain B¥. Introducing (4.11) into (4.2) and dividing by the logarithm 
term yields 


(4.13) Ag( (w) {In a — (BEL) (w — 1)? Bo(w) =O (w+?) for w—>oo. 


24* 
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For |w|>1 we have the following developments 


—Ny in N heed * 
(Set) "(w — 1)" By(w) =: BF (w) =: > BF w+ dF, 
v=0 


w—1 w 


(4.14) 44 : oo v=l 
w ee ae 1 Mev-1 

with 

(4.15) Me,-1>0 foreach »=>1 according to [2]. 


By introduction of (4.14) into (4.13) and comparison of coefficients of equal 
powers of w we obtain besides &y=0 the following ~,—1 relations between &, 


and B* (a_,:=0): 
*F| 
2 | 
(4.16) hyn — 2 2) May—18y— x42» = 2BN—x41> “= 1(1) p,— 1. 
y=1 


a 


4.3. The general mean-value schemes 


1. The mean-value scheme proper. Before we proceed to the generalized schemes 
of sect. 1.3 we state the results for the mean-value scheme proper because of 
their practical importance and because they seem not to have been rigorously 
proved so far (comp. sect. 1.3). 

Theorem 3. Given a problem (1.1)/(1.2) with a*€ C3 and TEN, a'*€C%, and 
| det (a**)|=>d>0 for nel. 

Then both modifications (1.6) and (1.7) of the mean-value scheme are stably 
convergent of degree 2 for all realizations of the procedure with p'=2. 

Solving the non-linear systems by iteration, in order to achieve p=2 it suffices 
to carryout one step of the iteration procedure (2.14) when the MASSAU-approxi- 
mation ts used for wo 

Proof. Follows immediately from Theorem 2 and Lemma}. The fact 
ID) on — 1 »|| =O (h?) locally is confirmed by considering the proof of Theorem 2. 


2. Differentiation schemes. Now we consider general schemes (1.8) with m)=0, 
or k=/-+ my an integer (comp. sect. 4.1, case I). The two modifications coincide 
since no interpolation J’ is necessary. These schemes have been called “‘diffe- 
rentiation schemes” by LINIGER [17] who regarded them for the numerical inte- 
gration of ordinary differential equations. 

Applying the relations (4.16) to these schemes, for which B*(w) =(w+1)*~* 
x (w —1)*, one can construct a violation of the necessary criterion (4.12) if k>0 ™. 

For k=0 it was shown explicitly in [/7] that (S1) is satisfied at least for 
N =1(1)5, which covers all reasonable cases, the values of the a, are also tabulated 
in [17]. Since (S2) is meaningless for these schemes they therefore ‘lead to con- 
vergent procedures. But k=0 demands y) +0 (while all other y, vanish), hence 
these schemes produce, in general, non-linear difference equations while by 
Lemma 5 the degree of their convergence cannot be larger than N. Therefore 
they are inferior to the generalizations proper of the mean-value scheme to 
which we now proceed. 





10 The details are omitted. 
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3. The generalized mean-value schemes. By Lemma 5 we may expect to obtain 
a scheme of higher degree of convergence if we choose k as a zero x, of Py(z). The 
corresponding «, are computed from (4.4) and the y, are found by standard 
interpolation methods choosing N,= WN. 

Considering that the «,(k) by (4.4) are continuous functions of & and that 
hence by a well-known theorem of algebra the zeros of A(z) are also continuous 
functions of k, the results of sect. 4.3.2 suggest that with (4.7) 


(S1) is satisfied for k= %,, 
(S1) is violated for k=x,, v=2(1)N. 
Tor N =1(1)5 this was verified by explicit calculations. 


Theorem 4. Given a problem (41.1)/(1.2) with u*eCN*? and ic, a'*eCNt?, 
and | det (a‘*)|=>d>0 for nel. 

Then, for N=1(1)5 at least, both modifications (1.8) and (1.9) of the generalized 
mean-value scheme with k= x, are stably convergent of degree N+-1 for all reali- 
zations of the procedure with p’=N-+1. 

Solving the. non-linear systems by iteration, in order to achieve p=N-+1 tt 
suffices to carry out one step of the iteration procedure (2.14) when a lixrar combina- 
tion I’w with N,=N but yo=0 is used for the determination of 1D) yy: 

Proof. By Lemma 5 we have ~,=N-+2, by (4.9) we have ,=N-+1, hence 
by (2.10) p=N-+41. The validity of (S1) was verified, (S2) is meaningless. Thus 
the convergence assertion follows from Theorem 2. For the mentioned linear 
combination we have f;=N by (4.9), this yields |, ., — My | =O (AN*) locally, 
and Lemma 3 furnishes the sufficiency of one iteration step. 

Thus we have been able to prove that the generalized mean-value schemes 
with k= 4x, carry on the supreme convergence qualities of the ordinary mean- 
value scheme (N =1) and hence are its natural generalizations. 


4.4. Generalized THOMAS-schemes 


1. The special THomas-schemes. We call a scheme (1.10)/(1.11) a special 
THomAs-scheme if (1.10) is the ADAMS-extrapolation formula (% = —a,=1, a,=0 
for y>1, B)=0). By Lemma 6a the remaining f, are uniquely determined. We 
have #=1, hence yy»=0, and the equations (1.11) are linear. 

Theorem 5. Given a problem (1.1)/(1.2) with u*€CN*! and iE, a*® Ee CNT, 
and | det (a**)|>d>0 for uel. 

Then, for N=1(1)5 at least, the special THoMAS-schemes are stably convergent 
of degree N for all realizations of the procedure with p'=N. 

Proof. By Lemma 6b ~,=N-+41, hence p=N (pf, does not appear). The 
validity of (S14) is trivial since Ag(z)=z‘~'(z—1), the validity of (S2) is verified 
by explicit calculation. Hence the assertion follows from Theorem 2. 

Remark. For N=1 we obtain the Massau-scheme; in this sense one might 
call the special THomAs-schemes generalizations of the MAssAu-scheme. 


2. Generalized THOoMAS-schemes. Comparing the degree of convergence found 
in Theorems 4 and §, one will ask whether there are convergent THOMAS-schemes 
(1.40)/(1.11) with p=N +1. 














342 | Hans J. STETTER: 


Theorem 6. There exists no stably convergent THOMAS-scheme of degree N +1. 

Proof. By Lemma 6b 2,5 N-+1 or PSN if B,=0. Therefore we need con- 
sider the case By=-0 only. 

Assume ~,=$+1=N-+2, and assume (S1) to hold which involves &,>0 


by (4.12). Because of m»=n=0 (8,+0!) we have B*(w) = B, (w) by (4.14), 
hence (4.16) holds for the B,. Now for x=1 (4.16) yields By=&y_,>0, while 


for x=p,-—1=N+1: 
ns [N/2] 


Bo=— Zia Sey42 0 by (4.15). 


Thus (S2) is violated by virtue of (4.12). 
Theorem 6 further emphasizes the unique convergence qualities of the gene- 
ralized mean-value schemes. 


4.5. General schemes (1.13)/(1.15) 


While it seems very difficult to discuss the existence of stably convergent 
schemes (1.13)/(1.15) with mj)+0 and +N, (comp. case 3 of sect. 4.1) for 
general N, it is interesting to see that for N=? it is possible to construct such 
a scheme which is stably convergent of degree 3=2N-+1, i.e. the absolute 
optimum as indicated in sect. 4.1. It is interesting the more since this scheme 
constitutes a counter-example to Lemma 6b, showing that the validity of Lemma 6b 
is restricted to the case n,=0. 


For the arguments of the a'* one will use Hermitian interpolation 


Yor (x) +yit(% — h) + 4, f' (% — (M% + 1) h) 
in this case, in order not to get N,>1. The coefficients of this optimal scheme 
for N =1 are given in the Table of the next section. 


4.6. Table of coefficients for various schemes; comparison 


The following table contains characteristic values and the coefficients of 
various stably convergent schemes (normalized by a,=1) for N=1, 2, 3. 
The decimals are rounded to 4 digits. It has to be kept in mind that according 
to sect. 2.1 with a refinement of the meshsize one may also have to improve 
the approximations for irrational coefficients. 


Special THOMAS-schemes: N, = 1, Ns=N, H#=1, ny»=0, P=N; 
% = 1, %& =—1, a,=0 (v>1); yo =0, », =1, », =0 (> 1); 

N =1: Massav-scheme, no , necessary; 
N =2: £8, =4, B,=— +3: 
N=3: 8, ={3, b2a=—i9, Bs=7s- 

Differentiation schemes: N,=N, N,=0, H=0, %,=0, P=N; 
no f, necessary; yo=1, y,=0 for »>0; 
N=1: a =1, 4 =—1; 

N =2: a =1, ao =—#, a, =}; 


— a4, ao _ £ a 2 
N =3: @=1, =~ TT “srr %*&—-— iT: 


i 











od 


CPT a Reieie 2a 


Pres, 





rs ei 


senate’ 














Convergence of characteristic finite-difference methods of high accuracy 343 


Generalized mean-value schemes: N, = N, N,=0, n=0, P=N +1; 
no B, necessary; 
N =1 (ordinary m.v. scheme): m = $; %=1; 4% =—1; yyo=%.=#:; 
N =2: % =1——L w .4226; 
¥3 
%=1, m=—84+4)/3 ~— 1.0718, a=7—4)/3 w.0718; 
1 ome 
Yo= - ~ 4553, y= ; w= 41-3 my — 1220; 


Mooyp =14+—— w 1.5774, Yar yw — 5774; 


/3 
mi td 
X» = 1, ieee arn My = 27 — 12/5 ~ .1672, 

a, = S405- ~47 wy — 0213; 

Ae ee Se ~~ 8090, y= 158 rw — .3090, 
Y= 3X5. ew 0637; 


11 yi = 24VS. ww 2.1180, y= +t zz — 1.6180, y3= ; q 


General scheme (1.13)/(1. 15): N, = N, =1, % = vg fw 4082, p= 








1 1 1 1 
=—@, ={; =.-+  .9082, = — mY. ; 
Xo hy Bo 27 6 Ae) B, 2 6 091 8 
5 5 88 — 3 5 | ,) é 3 1 + 12. 
= — mY. ; =— mY. 2 =— te SY. ak 
Yo= 3 6 45 v1 _T 6 54 1 2 V6 133¢ 
yi=1, dj =1—-' w.5918. 
| 6 
MV-schemes ST-schemes 
Necessity of an interpolation : 
yes no 
Character of difference equations : 
non-linear linear 
Necessary initial values : 
values of functions on N diagonals values of functions on one diagonal, values 


of both derivatives on N—1 diagonals 
Memory requirements : 
as initial values as initial values 
Convergence! ; 
degree N +1 degree N 


11 Comp. Theorem 4. 

12 Comp. sect. 4.5. 

13 The higher degree of convergence of the MV-schemes is very favorable if it 
is intended to extrapolate for meshsize zero from the results of computations with 
various meshsizes (RICHARDSON’s method, [78]), comp.e.g. [13]. 








344 Hans J. StetTER: Convergence of characteristic finite-difference methods 


. The table on the bottom of the preceding page confronts some properties of 
the generalized mean-value schemes (MV) and the special THomAs-schemes (ST). 
Evaluating the time demands, one will conclude that the preparation of the 
initial values for the ST-schemes will consume considerably more time, while 
within the lattice the computations for one point will last approximately twice 
as long for the MV-schemes than for the ST-schemes (assuming one iteration). 

Extensive numerical experiments are planned to confirm the considerations 
displayed in this paper. 
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Monotone Iterationsfolgen und ihre Verwendung 
zur Lésung linearer Gleichungssysteme* 


Von 


J. ALBRECHT 


Bei der numerischen Behandlung linearer oder nichtlinearer Gleichungen 
Av=Bv bzw. v=Tv 


in halbgeordneten linearen Raéumen 9 besteht die’ Méglichkeit, die Lésung v 
durch zwei monotone Iterationsfolgen in Schranken einzuschlieBen: 


“w=WSusvsc:.-Svs:- Svsw'sw=yw, 
wenn (mit 2 = {0: u<v<w}) fir den Operator T ein Fixpunktsatz gilt: 


,,Bildet T eine Menge I< DC R in sich ab, 
TMcM, so existiert ein Fixpunkt v=TvE€ M*‘‘ 


und wenn A ,,von monotoner Art‘‘ und B ,,monoton wachsend“, ,,monoton 
fallend“‘ oder ,,monoton zerlegbar“ sind bzw. durch andere Operatoren G,, G, 
und H,, H, mit entsprechenden Monotonieeigenschaften eingeschlossen werden. 

Diese im wesentlichen bekannten, von L. CoLLATz und J. SCHRODER erzielten 
Ergebnisse (EinschlieBungssatz, Iterationsverfahren; [3], [70]) werden im ersten 
Teil dieser Arbeit durch Einfiihrung der Operatoren monotoner Art G, und G, 
verallgemeinert und durch eine Rundungsvorschrift fiir die numerische Rechnung 
erganzt. 

Bei linearen Gleichungssystemen der Form v= Mv-+s ist die Matrix M stets 
in ihren monoton wachsenden und ihren monoton fallenden Teil zerlegbar; die 
beiden monotonen Folgen {u*}, {w*} ergeben sich dann, wie andere Untersuchungen 
von J. SCHRODER [9] zeigen, durch ,,Iteration in Gesamtschritten". 

Im zweiten Teil dieser Arbeit wird bewiesen, daB jedes derartige Gesamt- 
schrittverfahren durch ,,Iteration in Einzelschritten‘‘ ersetzt werden kann, deren 
Folgen ebenfalls monoton und im allgemeinen schneller, jedenfalls aber nicht 
langsamer konvergieren. Weiter wird gezeigt, wie auch die Lésungsmannigfaltig- 
keiten solcher linearen Gleichungssysteme, deren Koeffizienten mit Fehlern be- 
haftet sind, durch monotone Iterationsfolgen in Schranken eingeschlossen werden 
kénnen; dazu folgen abschlieBend numerische Beispiele. 





* Auszug aus der von der Mathematisch-Naturwissenschaftlichen Fakultat der 
Universitat Hamburg angenommenen Habilitationsschrift des Verfassers (Referenten: 
Prof. Dr. Dr. h.c. L. Cortatz und Prof. Dr. E. SPERNER); ein anderer Auszug ist 
bereits unter dem Titel ,,Fehlerabschatzungen bei Relaxationsverfahren zur numeri- 
schen Auflésung linearer Gleichungssysteme‘‘ erschienen [Num. Math. 3, 188—201 


(1961)]. 
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AuBerdem wird kurz iiber die Iteration mit monotonen Folgen bei: nicht- 
linearen Gleichungssystemen berichtet. 


1. Allgemeine Satze zur numerischen Behandlung 
gewisser nichtlinearer Gleichungen in halbgeordneten Raumen 
1.1. Der EinschlieBungssatz 

J. ScHRODER bewies vor kurzem [10] folgenden, hier in gedrangter Form wieder- 
gegebenen EjinschlieBungssatz: 

1. Bezeichnungen. ® (und ebenso G) sei ein halbgeordneter, linearer Raum von 
Elementen 4, v, ...; insbesondere sei also in ft fiir gewisse Elementepaare u, w eine 
Beziehung u Sw definiert. 
<u, w>_ = WENCR: wSt sw}; (u,w)= Cu, wy; (—0o, wg =(ENCR: T<w}; 
<u, + codg ={VENCR: uv}; .<—09, + cod>g = MN. 

Ein Operator T, der I< R in © abbildet, heiBt: 
,.Monoton wachsend“‘, falls Tu<Tw ist fiir usw (u, we); 
,Monoton fallend’‘, falls Tu=Tw ist fiir usw ‘ : 


,,Monoton zerlegbar’‘, falls T sich als Summe eines monoton wachsenden Operators 
T* und eines monoton fallenden Operators 7- darstellen 146t, T=7++T-. 


2. Voraussetzungen. Gegeben sei die Glei¢hung! 
Av=Bv. (1.1) 


Der Operator A sei ,,von monotoner Art‘ im Sinne der Definition von L. CoLLatz [1], 


d.h. 
aus AuSAw folge usw (u, wEA). (1.2) 


Es gebe zwei Funktionen! H, (&, ») und H,(é, 7) mit 


Ai, (§,, m) S Ay (§2, 2) +s - 
sacheabapuacenl RE: Se By WER: (1-3-4) 
H, (§, &) SBESH,(,é) 9 (§€ BO H). (1.3.2) 


Insbesondere kann H,=H,=H sein, also H(é, &)=Bé&, H(&,n)=Btt+B~-yn. Es sei 
méglich, einen Operator T ,,implizit‘‘ so zu definieren, daB das gegebene Problem 
Av=Bv der Aufgabe Aquivalent ist, eine Lésung der Gleichung v= Tv zu ermitteln. 
Fiir T gelte ein Fixpunktsatz folgender Art: ,,Bildet T eine Menge! § in sich ab, 
TM<M, so existiert ein Fixpunkt veM". 


3. Satz. Es gebe zwei Elemente u, we AVCBOH mit 
usw; AusH,(u,w); H,(w,u)SAw, (1.4.1) 
dann besitzt die gegebene Aufgabe Av=Buv eine Lésung 1, fiir die 
usv sw (1.5) 
gilt?. 


1AcR, AAc S; V=K<g,y>, BBcS; 
9=<®, P>, H,O< S, H,H< S; M=<u, w> mit u+—oco, w++00. 
? Man sieht unmittelbar, daB diese EinschlieBungsaussage (1.5) giiltig bleibt, wenn 
[unter der Voraussetzung (1.6)] an Stelle von (1.4.1) gefordert wird: 





usw; G,usH,(u,w); H,(w,u)<G,w fiir u, we OOBOH. (1.4.2) 











ee ee ee eee aici — - 
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1.2. Das Iterationsverfahren 
Auf diesen allgemeinen EinschlieBungssatz lassen sich einige wichtige Aus- 
sagen tiber ein monotones Iterationsverfahren zuriickfiihren. Wir treffen zunachst 
zusatzlich folgende Voraussetzung: Es gebe zwei weitere Operatoren monotoner 
Art G, und G, mit 
GyusAusG,u (uEGcA). (1.6) 


(Insbesondere kann G,=G,=A sein.) Dann gilt der (fiir den Spezialfall G,= 
G,=A=E [Einheitsoperator] von J. SCHRODER [10] angegebene) Satz: 
Das Iterationsverfahren 





H, (u*, w*) = G,u®*?; G,w*t! = H,(w*,u*) (R= 0,1, 2,...) (1.7) 











ist unbeschrankt durchfiihrbar, wenn die Ausgangselemente den Bedingungen 
(uw, wP@ ECGVBGH; ul, w' eG) 


“sw; wv<uv), w'<w® (1.8) 


geniigen; es existiert dann eine Lésung v der Aufgabe Av= Bv mit 





WsWwsvs...cu'se's...S05...5uv'sv*"'S...Su'*Su'sw. (1.9) 











Bewets. 
1. Aus wW<w® folgt 


A ws G, ui = H, (u®, w®) < #,(2oe ‘ are) 





<H, (ete ; oe) < H,(w®, ) =G,w'<s Aw! 


und daraus auf Grund der Monotonieeigenschaft von A 
ws w'. 
2. Aus w=! und w'<w®* folgt 
Auli <G,u! = H, (uv, w) < A, (uv, w) und A,(w!,w) < H,(w®, v0) =G,w's Aw. 


3. Die Elemente w, w! erfiillen also die Voraussetzungen des EinschlieBungs- 
satzes, es existiert daher eine Lésung 1, fiir die 


wW<swsv<w'<w (1.10) 
gilt. 
4. Die weitergehende EinschlieBungsaussage (1.9) folgt [nach der Verankerung 
durch (1.10)] mit Hilfe vollstandiger Indvktion. Sei namlich 


ut} < u* v < w* < w*-} 
fiir ein k=/=1 richtig, so gilt 
G, u! = H,(u!}, w'-) < Hi, (u', w') =G,u'**, = also 6 S u'*? 


G, w't! = H, (w', u') < H, (wv! w!-) =G,w', also wl? Sw! 
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und 
Avt'<G6,u't! =H, (wv, wv’) SH, (v,v) 5 Bu=Av, also wt!suv 
Av=BvS H,(v,v) S A, (wv, w’) = 6,0? < Aw'*?, also vsw'*". 


1.3. Eine Rundungsvorschrift 


Zur numerischen Durchfiihrung der Iteration (1.7) ist fast immer erginzend 
eine Rundungsvorschrift erforderlich; sie ergibt sich unmittelbar aus folgendem 


Satz. Unter der Voraussetzung (1.7), (1.9) ist‘auch die von Elementepaaren 
u*,w* (K=O, fest) mit 


u®& <u* suk! und wXt?<w* <wX (1.11) 
ausgehende Iteration 
H, (u*,w") = Gap"**; G.o*t'= Hwy") (R= K, K+1,...) (4.42) 
unbeschrankt ausfiihrbar; es gilt 
“bsp sui und wt'<w'swt (k= K,K+1,...). (1.43) 


Der Beweis wird wieder durch vollstandige Induktion gefiihrt: (1.13) sei fiir 
ein k=/=>K richtig [Verankerung durch (1.11)], dann folgt: 


H, (w’, w!) S Hy (u',w') < Hy (u'**, w'*9); Hy (w'*?, ut) < Hw, w’') S HH, (w', w’) 
—_ — — —$ eer 





Gy yt < Gypl*? < Gz yit?. G, wt? < G, wt < G, wt} 
also 
uit < pitt < uit?. wit? < wt} < with 


und damit die Monotonie 


eX sp®t suk? <... Suc... <wkt?<@m*t<@*. 


Die angekiindigte Rundungsvorschrift lautet nun: 
Die Elemente u*+! bzw. w*t? (k=0, 4, 2,...) sind nach unten auf [u*+}| 
bzw. nach oben auf [w***] zu runden, jedoch so, daB 


u®s< |) <u? baw. wt! < [wt <u (1.14) 


gilt; die Iteration wird von |u*t?| und [w**?] statt von u*+! und w**! aus fort- 
gesetzt. 

(Der Beweis folgt mit u*=|u*+"| und w*=[w*t*] aus dem eben genannten 
Satz.) 


2. Lineare Gleichungssysteme 


2.1. Bezeichnungen 


u,v,... bedeuten m-dimensionale Vektoren mit den Komponenten Pe: 
A, B,... n-reihige, quadratische Matrizen mit den Elementen a;;, bj;,...5 0 den 
Nullvektor, O die Nullmatrix, E die Einheitsmatrix. 

In den Mengen dieser Vektoren bzw. Matrizen seien (vgl. [9]) bei Aufteilung der 
Indizes 1, 2,..., in zwei elementefremde Klassen {p,} und {g,} Beziehungen u<w 
































‘wists Sater 
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bzw. A SB definiert® 4: 
Uj SW; fiir j=?,. 


< bedeutet’ 
usw bedeute cae fir. jug, (2.1.1) 
4;;3b;; fiir tig toed 
ASB bedeutet ith whe ln cl (2.4.2) 
a,j2bj fir 1's I=G 
t=» j=?,- 


Jeder Vektor u bzw. jede Matrix A laBt sich in einen ,,positiven Teil‘‘ u+ bzw. At 
und einen ,,negativen Teil‘‘ u- bzw. A~ aufspalten: 








u=ut+u- (mit ut2o und uso) (2.3) 
A=A+*++A~- (mit A+=>O und A~SO), +3 
mit 
uo tar {iP wd wiz 
=q, und u;< 
ue=t os wpa ke (2.3.1) 
0 u; fiir ah — vor 
J=Q, und u;20, 
=— fag und a;;20 
ai; 0. fiir Wing I=4y" 
‘og ye und a;;<0 
= > = ” 
aj;= § ajj= ‘an . — (2.3.2) 
eRe ying und a;;<0 
0 aj; fiir ¢ _ ie 
‘=Pr me) und a;;20. 
(7 =u» j=?, 





Aus usw folgt AtuSAtw und A~u=A~-w: Im linearen, gemaB (2.1.1) halbgeord- 
neten Raum i, der m-dimensionalen Vektoren ist der ,,positive Teil‘‘ jeder -reihigen, 
quadratischen Matrix zugleich ein monoton wachsender, der ,,negative Teil‘ zugleich 
ein monoton fallender Operator. 

Aus ASB folgt AutSBut, Au-=>Bu-. 

Bedeuten u, v,... /n-dimensionale Vektoren, die aus /m-dimensionalen Vektoren 
Mj), Uj), -.. Zusammengesetzt sind, A, B,... Iln-reihige quadratische Matrizen, die 
aus /* n-reihigen quadratischen Matrizen Aj;;;), By;;),... zusammengesetzt sind, so 
lassen sich dafiir allgemeinere, durch® 

Uj Sj Oder wMpy2yj und AgjySBGj oder Ajj) =SBiij) (2.4) 

3 Im Druck werden hier dieselben Zeichen fiir die Beziehungen ,,kleiner oder 
gleich‘‘ bzw. ,,gréBer oder gleich‘‘ verwendet, gleichgiiltig, ob Matrizen und Vektoren 
oder Komponenten verglichen werden ; verschiedenartige, etwa farbige Zeichen wiirden 
zu besserer Ubersicht beitragen. 

4 Eine von beiden Klassen darf auch leer sein; durch die Substitutionen 





i; = u;, wD; = w; fiir j=), 
a; = —4U,, w; = — W; fiir I=Up 
a3; = 4j;, bjj;= bi; fiir edie tk 
=n» I=Q* 
~ id es i= "? j = 
a= —aAjj, b= _ b;; fiir “ee rane 
# 


1aBt sich z.B. stets erreichen: 
usw bedeutet u;Suw; fir j=1,2,...,m, (2.2.1) 
ASB bedeutet a;;Sb;; fiir i,j=1,2,...,m. (2.2.2) 
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erklarte Ordnungsbeziehungen u<v und A SB geben. Im folgenden sei speziell 


<b 
a) =asb= (7) bedeutet Pike @ 2.5.1 
( (2) _ b(2) a2) = bia) ( ) 
Ay) A2)) 4 <B Ban| Pas») ie oe Paces fir i=j 
£4) “a9)) - 4 <B=(an| "as ae 
(seni . Bee1)| Beee) Aijy2Bujy fiir i+). ( 





Beim Einzelschrittverfahren wird eine Zerlegung einer Matrix A in eine linke, untere 
Dreiecksmatrix A, (ausschlieBlich der Hauptdiagonalelemente von A) und eine rechte 
obere Dreiecksmatrix Ap (einschlieBlich der Hauptdiagonalelemente von A) vorge- 
nommen werden: 


aj; 0 fir i>j an 
A1y=| Pt R= 1a, fiir i<j (t,7=1, 2, es OF (2.6) 


2.2. Aufgabenstellung 


Es ist ein auf die Form 
v=Mv+s (2.7) 


gebrachtes lineares Gleichungssystem mit gegebener m x m-Matrix M=(m,,) und 
gegebenem -dimensionalem Vektor s=(s,) zu lésen. 


2.3. Monotone Folgen bei der Iteration in Gesamtschritten 
J. SCHRODER zog dazu den Brouwerschen Fixpunktsatz heran und zeigte [9]: 
Erfiillen zwei Vektoren u°, w® die Voraussetzungen 


wW= wv; ws MtyY+M-w+s; Mtw+M-v®4+scv", (2.8) 


so gilt fiir das von w® und w® ausgehende, durch 





up t=: Do {mi}; uj + mij wh} + 5, 
oa (i=1,2,...,); (k=0,4,2,...) | (2.9.1) 


n 
ut t? = >) {m;; ut + mi, wh} +s, 
j=1 











bzw. 
u®t1 — Mty' 4+ M-w*+s 


k-=0,1,2,... 2.9.2 
w't!— M-u eI ( ) ( 


definierte Iterationsverfahren (in ,,Gesamtschritten‘‘) die Monotonieaussage (1.9) ; 
offensichtlich liegt ein Spezialfall des allgemeinen Iterationsverfahrens (1.7) vor. 

Ist M monoton (M=M* oder M=M_), so ergeben sich zwei von u® bzw. w® 
ausgehende, voneinander unabhangige Folgen; ist M monoton fallend (M=M_), 
so geniigt es zur EinschlieBung der Lésung v, wegen 


wWovsowts-..-Svs--scw¥svwsw' 


wWoWUscUs-.-Svs--sSwvswvsw 
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nur mit einer dieser beiden Folgen zu rechnen, also unter der Voraussetzung 


vsvsv' bzw. vsv?sv (2.10.1) 
gemaB 
viti_ Mv'+s  (k=0,1,2,...) (2.10.2) 


zu iterieren. — Fr. A. WILLERS [14; S. 319—320] arbeitet bei einem derartigen 
Gleichungssystem mit einer alternierenden Iterationsfolge. 
2.4. Monotone Folgen bei der Iteration in Einzelschritten 
Wir ersetzen jetzt (2.9.1) bzw. (2.9.2) durch das Iterationsverfahren in 
, Einzelschritten“ : 





mr M4 
wh Domi ah ice +3 mia + isa 8 
1 F=f , 
j j=i (a= 4,2,...,%); 


(2.11.1) 


i—1 n 
h+1__ S$ fen- -h+1 k+1 aia k 
wi =D {mj up t+ mi; wi} + 2D {maj + mj; wF}+s; 
yuk i=i 





(k = 0,1, 2,...) 








bzw. 
ub+) — Mj ubt! + Mr w*t! + Mg ut + Mg w* +s 
k ‘ k : k : 4 , (k=0,1,-2,...) (2.44.2) 
wt? — Mr u*+* + Mi w*t! + Mg ub + Mg w* +s 
bzw. (nur zu Beweiszwecken) 


s+ Bot =A x**1, A#®ti_~ Betts (k=0,1,2,...) (2.44.3) 
mit 2-dimensionalen Vektoren 
_ (4 _[(v\) ._[w ~~ 
«=(*), y=(2), 2=(*), s=(§) (2.42.1) 
und 2m-reihigen, quadratischen Matrizen 


_ (E-Mz| —Mz _ (Mg 
A=( —M; reas at B=(Fe 





MR M;, | Mr 
MR) C= (Fe ue): 2.12.2 
a) Mz; | Mf ( ) 





Bei der Ordnungsdefinition (2.5) ist B (und ebenso C) ein monoton wachsender 
Operator in #,,, und A, wie man sukzessiv fiir die 1. und (m+-1)-te, die 2. und 
(n+ 2)-te, ..., die m-te und 2m-te Komponente nachpriift, ein Operator mono- 
toner Art. (2.11) ist also ebenfalls ein Spezialfall des allgemeinen Iterations- 
verfahrens® (1.7); unter den Voraussetzungen 

Ms 2; Ps x}, zis 7 (2.13.1) 
d.h. 

ww; x<y, w<w? (2.13.2) 


gelten daher auch fiir das Einzelschrittverfahren die in (1.9) niedergelegten 
Monotonieaussagen. 





5 Das Auftreten des Vektors s in (2.11.3) stért die Ubereinstimmung mit (1.7) 
natiirlich nur formal, aber nicht inhaltlich. -. 
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2.5. Vergleich des Einzelschrittverfahrens mit dem Gesamtschritiverfahren 


Wir bemerken zunachst, daB sich die Iteration in Gesamtschritten mit den 
soeben eingefiihrten Bezeichnungen auch durch 


s+(B+C)#e=xh!; AH =(B+C)A+s (k= 0,1,2,...) (2.44.4) 
oder durch 
C(xk— xk) 454+ Bek =Axkt*; Akt1 = BAk+5s4 Ck — 4) 
(k = 0, 1,2, ...) 


beschreiben lieBe und behaupten nun: 
Satz. Konvergiert das von zwei Vektoren x, z ausgehende Gesamtschritt- 
verfahren (2.14), gilt also 


e=xeixgsxic-. Sys. sAsdAsd=z, 


(2.14.2) 


so konvergiert auch das von denselben Vektoren x, z ausgehende Einzelschritt- 
verfahren 
s+Bxep=Axtt!; AAV =BA+s (k=0,1,2,...) (2.15) 
mit > 
of 1 2 2 1 o 
R= XpSrpSxeS: SYS: SeSt%eSeye=2 (2.16) 
und zwar ,,besser‘‘ als das Gesamtschrittverfahren: 
teoxkscyseAsk § (k=0,1,2,...).- (2.17) 
Beweis. 1. Fir k=O4st _ 
C(x? — x) t+Axp=Axt und Az%=Aze+C(ze — 2h); 
wegen 
xeSxG und z<28 
folgt daraus 
Axt<SAxp und Aze< Az 
also 
(x S) xg x_ und 2h<2t(< 22) (2.18) 
und damit die monotone Konvergenz (2.16). 


2. Die bessere Konvergenz (2.17) wird durch vollstandige Induktion gezeigt ; 
(2.17) sei fiir ein k=/=1 richtig [Verankerung durch (2.18)], dann ist 


ait 154 (B+ Cy Sst (B+ Ow Ss4 Brg + C x= it} 


se? =C#4 Bhts<(C+B)h+sS(CHB)A4+s—e) 
d.h. 
sf 'sag* und t's dt; 
(2.17) ist also fiir alle k giiltig. 
Umgekehrt gilt: 
Satz. Konvergiert das von zwei Vektoren x, z ausgehende Einzelschritt- 


verfahren, gilt also 


x = xi. 


lA 


ts. Syse Sz 


ns 
I 
XN 





= it te 








rite 


picts an 
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so konyergiert auch das von x}; = x%, z?. = 2}, ausgehende Gesamtschrittverfahren, 
aber, nach dem vorigen Satz, schlechter. 


Beweis. Aus x¢< x; und z}< 2%, folgt 


s+ Bx-+Capss+(B+C)xt; (C+ B)a4s5CA4+B24+5 








Ss. > © XG} 2% < 2G. 
Das Einzelschrittverfahren (2.11) ist also dem Gesamtschrittverfahren (2.9) grund- 
satzlich vorzuziehen ; eine Ausnahme von dieser Regel kann (wegen der Halbierung 
des erforderlichen Arbeitsaufwandes) nur dann eintreten, wenn M = M-~ monoton 
fallt und das Gesamtschrittverfahren mit einer einzigen (alternierenden) Folge 
gemaB v*t?=M~-v*+s nach (2.10) durchgefiihrt wird. (Bei Umwandlung dieser 
Vorschrift in ein Einzelschrittverfahren 3*+' = M; o**+1+ Mg d* +s geht das alter- 
nierende Verhalten der Iterationsfolge verloren, da (E — M;) nicht von monotoner 
Art ist; ein Beispiel dazu findet man bei Fr. A. WILLERs [/4; S. 319-320, 324].) 


3. Lineare Gleichungen mit fehlerhaften Koeffizienten 


Bisweilen sind Gleichungssysteme zu lésen, bei denen statt der Elemente der 
Matrix M und des Vektorss selbst lediglich obere und untere Schranken fiir 
diese Zahlen angebbar‘® sind [2], [5], [7], [13], [74], [14]: 


mM; S M;; SM; §;S5,;S5;. (3.1) 


i= ij? 
Unter Beachtung der Ordvinnipedatiitlion (2.1) bilden wir daraus Matrizen L, N 
und Vektoren 7, ¢ mit 


m;; m,;; fiir 8 een 
a ’ “ 
‘j= , ay = ; Tur 1 = Que (3.2.1) 
Mi; ; m;, fiir _ is 
Ww 1= th 
r,= 1%; ae str ie (3.2.2) 
S; s; fir 14=4,. 
also mit 
LSsMEN; yssst. (3.2.3) 
Unter den Voraussetzungen 
0S vs vw; ws u, wicw®, (3.3 


liefern dann sowohl die durch das Gesamtschrittverfahren 


R+l_o[ty*®4T-wity 
Roe, 4, 2, .<. 3.4 
tl N-u si lay ( (3.4) 


wie die durch das Einzelschrittverfahren 
yh gps. eg eae aie 
1 — N; ubt1 4 Ni wt) Neu' + Ngu* +t 


(k=0,1,2,...) (3.5) 


’ Beispiele: - Unendliche Dezimal- bzw. Dualbriiche; numerisch errechnete, mit. 
Rundungs- und Verfahrensfehlern behaftete GréBen ; MeBergebnisse (Geodasie, Physik, 
Technik); Toleranzspannen bei technischen Daten. 

Numer, Math. Bd. 3 25 
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erzeugten Iterationsfolgen {u*}, {w*} Schranken 
OSsWsws. Sess... svc:-sw*<y'<s:--sw'sw (3.6) 


fiir die Lésung v jedes mit (3.2), d.h. mit (3.1) vertraglichen Gleichungssystems 
v=Mv+s, denn das Gesamtschrittverfahren ist mit ($= <0, co) 


Gy=G,=E; HE.n)=L*E+L qtr; Hy(E.n)=NtE+N-n+t (3.7) 
und das Einzelschrittverfahren bei der Ordnungsdefinition (2.5) mit (©=H= 
<0, 00>) 


Pe E B~f2" Ls PH Gatto Hat =| 
af ww) — Nr E_ Nz} oe ' ‘ P 


Lk LR 


ie ne)? +(;): (3.8.1) 


z= (*); (“8 ma)" == G,2*t' = H,2* = (ert \t+ () (3.8.2) 
ein Spezialfall des allgemeinen Iterationsverfahrens (1.7). 
Aus der wichtigen Voraussetzung 0 Suv® Sw”, dh. 
OSu} Sut fiir i=p, 
wiSu?so fiir i=q, 


geht hervor, daB die Ordnungsdefinition (2.1) der Vorzeichenverteilung der Lésungs- 
vektoren_entsprechend zu treffen ist; letztere darf sich also bei Variation der m,; 
und s; im Rahmen der Toleranzen (3.1) nicht andern [notwendige Bedingung fiir die 
Durchfiihrbarkeit der Iteration gem4B (3.4) oder (3.5)]. Im iibrigen fiihrt der Vergleich 
des Einzelschrittverfahrens mit dem Gesamtschrittverfahren zu demselben Ergebnis 
wie in Nr. 2.5. 


Die Ordnungsdefinition 
usw bedeutet wu,;<w, fiir allei (3.10) 


(3.9) 


bietet eine andere bequeme Méglichkeit, die Lésungen linearer Gleichungssysteme, 
deren Koeffizienten mit Fehlern behaftet sind, in Schranken einzuschlieBen. 
Unter den Voraussetzungen 

w=»; wW<w, ww, (3.11.1) 
wobei auBerdem 


entweder 0< u?<w? G=1,2 n) 3.11.2) 
oder ud <w®<0 S. cereal sates? 
ist, werden z.B. [vgl. (1.1) bis (4.3)] bei Gleichungen 
Av=Bve-s (3.12.1) 
mit 
4,34; 54;;,  b,,50,5b,;, sS5;S5; (3.12.2) 
durch 


Gut! = Hyu'+Hyw*+r; G,w't!=HApw'+Hyu'+t (k=0,1,2,...) (3.13.1) 


monotone Iterationsfolgen in Gesamtschritten erzeugt. Dabei sind 


a; ; es ' fii < 0— 0 
mr ni \B hai | ow 03434 


a; ; 
es 2 i5;> " 0 0 
a; ; ‘ij ij b;; fir ujsw;s0 (3.13.2) 


75 = Sj) t; = S;. 
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H,=Hj{+H, und H,=H;+Hz werden gemaB (2.3.2) zerlegt und nach (1.6) 
miissen mit A auch G, und G, von monotoner Art sein. 


Die Konvergenz der Iteration, die nicht immer von vornherein gesichert ist, 
kann vielfach durch vorherige geeignete Linearkombination von Zeiien (bzw. 
Multiplikation mit einer festen Naherung fiir die Inversen der bei den gegebenen 
Toleranzen méglichen Koeffizientenmatrizen) erzwungen werden. 


4. Nichtlineare Gleichungssysteme 


Bei nichtlinearen Gleichungen 
UV; = 9; (V1, Ve, ---, V,) (§ = 1,2,...,%) (4.1) 
beschranken wir uns — der Kiirze halber* — auf die Ordnungsdefinition 
usw bedeutet u;sw,; fiir *1=1,2,...,n. (4.2) 


Die Funktionen g;(v,;) seien in monoton wachsende Funktionen gj (v,) und 
monoton fallende Funktionen g; (v,) zerlegbar: 


9; (v;) = pi (v;) + 9;5.(%;)  (¢=1,2,...,m) (4.3.1) 


mit 


yas (@=1,2,...,m) fir uSw, (§7=1,2,...,m). (4.3.2) 
Yi (u;) => 9; (wv) 
Dann gilt auch hier der 

Satz. Konvergiert das von zwei Vektoren u,w ausgehende Gesamtschritt- 
verfahren 


— uk — fapF k 
= pt (W,.. Wn) + 95 (wh «--» Wa) (i=1,2,...,), (R=0,1,2,...) (4.4.1) 
wit? = Pi (ui, . a) > Pi i (wi, cee, Wy) 


ustt 


monoton, gilt also 


we Swe =w, (4.4.2) 


IA 


+ Sv 


WA 
WA 
mn 


u=Uue Sug S ur 


dann konvergiert auch das von denselben Vektoren u, w ausgehende Einzel- 
schrittverfahren 


og t? = al = Qj * (ub, ., wt}, ut U; mee? , uk) + Pi ieg**,.. +) Ete wt, bla w*) 
wit? aa Yi (a*’,.. . wert, uf, "? ., ub) + Pi {(wit?, .. ., wht} w,. aE .., wh) (4.5.1) 
(6=1,2,...,m), (&=0,1,2,...) 
monoton 
u=ueSupSues-- Svs: SvisSue Suz =v, (4.5.2) 
und zwar besser als das Gesamtschrittverfahren: 
u-sutksvswitswk § (k=1,2,},...). (4.6) 


25* 
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5. Numerische Beispiele 
Beispiel 17. Die Koeffizienten und rechten Seiten des linearen Gleichungs- 
systems 
4,33 v, — 1,12v,— 1,08 v3 + 1,140, = 3,52 
—1,12v, + 4,33 v2 + 0,243 — 1,220, = 1,57 
— 1,080, + 0,240, + 7,21 03 — 3,220, = 0,54 i 
1,140, — 1,220, — 3,22, + 5,43 v4 = — 1,09 : 


seien nur bis auf 40,005 genau; waren sie fehlerfrei, so wiirde die Lésung i 








V,=1,046..., V,=0,562..., Ug=0,111..., ug =— 0,228... (5.1): 
lauten. Bei der Zerlegung der Koeffizientenmatrix gemaB (3.12) in 
4,33 —1,12 0 0 
aad —142 43390 0 
0 0 7,24. — 4,22 
0 0 —%3,22 5,43 
0 0 1,08 —1,14 3,52 
m 0 0 —0,24 4,22 _{ 1,57 . 
1,08 —0,24 0 0 0,45 | 
— 1,14 1,22 0 0 — 1,09 | 


und mit der Ordnungsdefinition (3.10) ist A von monotoner Art. Die Ergebnisse 
(5.1) legen den Ansatz 
Os<uv<w? fiir *+=1,2,3 und wf<Swf<so fir *=4 


nahe, es wird also 








4,335 —41,445 0 0 
—1,115 4,335 0 0 
Gagan 
0 0 7,245 — 3,225 
0 0 —3,2415 5,425 
0 0 1,075 — 1,135 3,545 
4 0 0 0,245. 1,225 | 4,565 
' 1,075 —0,245 0 0 "1 0,535 
—41,145 1,245 0 0 — 1,095 
4,325 — 1,125 0 0 
Gg, -| 1125 4325 0 0 
0 0 7,205 —3,245 
0 0 —3,225 5,435 | 
0 0 1,085 —1,145 3,525 | 
0 0 0,235 1,245 1,575 
H,= t= 
1,085 —0,235 0 0 0,545 
—1,135 1,225 0 0 — 1,085 


7 Die numerische Behandlung dieses Beispiels zeigt, daB die geschilderten Methoder. 
und Vergleiche nicht starr auf Gleichungen vom Typ v=Mv-+s festgelegt sind. 
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bzw. abgekiirzt 


= ("10 0 H=(, 0 i (j= 4.2) 
0 Ghee) Hii) 0 : 
=) e) te) C3) 
(2) \fay M2) (2) 
G, und G, sind von monotoner Art. 
Auch hier kann (schneller) in Einzelschritten iteriert werden: 
Goer1) Mh) = Afra) M2) + Are) 2) + My, 
Gyr ®t) * = Age) Wf) + Aare) Mle) + tay; 
Gocz2) Mia) = Ayer Ma) + Hie ea} + ey, 
Gy (22) {3} = Ae 21) Wha} + Ayer) Miah * + tea). 
Die Auflésung der Gleichungen 
Goipp Mp) = Fp) und Gry, wiy*=ty) (Pp = 1,2) 
erfolgt ebenfalls stets iterativ, und zwar [in Gesamtschritten oder (schneller) in 


Einzelschritten] mit monotonen Folgen 


(p) Sup; 
k+1 k+1,2 k+1,1 k+1,0 _ . Ak 
Wp So Sp) SM)? SM)” =% 


hk — yktLo k+1,1 k+1,2 k+1. 
Up) = Mp)? SU Subshe<...<u 


und unter Beachtung der Rundungsvorschrift (1.14). 








Ausgangsnadherungen | Ergebnisse 
0,900 1,200 1,031 1,062 
w-| 400) _[ 0,700) _ 0,550)_ | 0,577 
0,000 0,200 0,098 0,125 
—0,400 —0,100 —0,244 —0,210 


Das Mitfiihren einiger zusatzlicher, an sich ,,sinnloser‘‘ Stellen (,,Schutz- 
stellen“) verbessert die Genauigkeit der letzten ,,sinnvollen“ Stelle noch etwas: 








Ausgangsnaherungen | Ergebnisse 
0,900 00 1,20000 1,033 51 1,05911 
4 
42—| 40000 0,70000 } __ 9 0.55144) _ 9 | = 0,57415 
0,000 00 0,200 00 ‘0,100 26 0,12175 
—0,400 00 —0,10000 —0,242 46, — 0,213 80 





[23 Gesamtschritte, 12 Einzelschritte]. 
Beispiel 2. In dem System [7] 
9,3746v, = — 3,0416v, + 2,4371 vs + 9,2333 
6,1832v, = — 3,04162, — 1,2163 05 + 8,2049 
8,4429v, =  2,43710, — 1,2163v, + 3,9339 
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seien die gegebenen Daten ebenfalls mit Fehlern behaftet, deren Betrag 5 - 10-5 
nicht iibersteigt. Iteration in 19 Gesamtschritten nach (3.11) bis (3.13) oder in 
11 Einzelschritten fiihrt unter Beachtung der Rundungsvorschrift (1.14) auf: 














Ausgangsnadherungen | Ergebnisse 
0,80000 1,00000 | 0,896 36 0,896 48) 
u*= | 0,65000] <| 0,85000] = w® 0,765 06) <u < | 0,765 20 
0,55000/  \o0,70000 | \0,61442 0,614 53 


bzw. (in ein paar Schritten mehr) auf: 








Ausgangsnaherungen | Ergebnisse 
0,8000000 1,000 0000 | 0,896 3770 0,896 471 1 
u®= | 0,6500000] < | 0,8500000] = w® | 0,765 0721] <v <| 0,765 1877 
.0,5500000 0,700 0000. 0,614.4332 0,614 5160 
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On Discrete Dirichlet and Plateau Problems 
By 
WALTER L. WILSON, JR.* ** 


1.0. Introduction 


This paper is presented as a first report on some of our experiences |/6| 
with a method for computing polyhedral approximations: to conformal maps 
and minimal! surfaces in Euclidean u-space. We are not at this time prepared 
to discuss the merits of this procedure, sav when compared with the results 
of S. E. WARSCHAWSKI [12, 1/4] and J. Topp [12] on computing conformal maps 
in Ey. 

The problem of PLATEAU is that of finding a minimal surface spanning an 
arbitrary Jordan contour J’in E,,. The first solution was given by J. DouGtas [4]. 

Let J" be rectifiable and represented by g(#) as a topological image of the 
unit circle C: x?+ y2=1. Choose any three distinct points on C, say 3, #2, 33, 
and let A be the set of all topological mappings «(#) of C onto itself with 
a(#;)=8;. Now T: {g(«(#))|«¢ A} is the set of all topological representations 
of I’ as image of C which leave these three points fixed. DouGLas proved that 
there is in T a representation of J", call it 2(9), 0S @<2z, such that 


s [Bi —Bilpr 
(1.1) A(g) = 65 = , @idy =minimum 
sin 


and the harmonic siete 5 spanning /’ with the particular parametrization g (#) 
is minimal. If J’ is in E, then X is a conformal image of the interior S of C. 


The Douglas functional (1.1) is obtained from Dirichlet’s integral 
(1.2) D(u) =} Sf(ui+ uj) dxdy. 
s 








Since (1.2) is minimized when the components of u(x, y) are harmonic, with 
Poisson’s formula substituted (1.2) becomes a function on the parametrizations 
of I’ alone. This is the Douglas functional. 


all University of Alabama. The author is deeply indebted to Professor C. B. 
Tompkins for encouragement and guidance in the preparation of his dissertation 
(reference [16], below) and this paper. 

** This research was supported in part by the Office of Naval Research. Com- 
putations were performed on SWAC, an electronic digital computer furnished Numeri- 
cal Analysis Research, University of California. at Los Angeles, by the Office of 
Naval Research. 

1 Minimal surfaces: were named by their property of having least area among 
all surfaces bounded by a given contour. All (non-plane) minimal surfaces must 
be saddle-shaped with vanishing mean curvature at every point. The soap film is 
one example. 
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2.0. Discretization of the problem 
2.1. Definitions 


We assume that C is a simple closed polygon with vertices 1, vg, ..., Uy 
which bounds a region S in E,. We admit vertices with interior angle equal 
180°, and we assume the vertices are indexed in increasing order as they occur 
reading counterclockwise along C. We write C: {v;|é=1(1)N}. A grid S: 
{s;|7=1(1)M} is chosen in S. Elements of the combined grid (C, 5S) belonging 
to C and S are called boundary and interior grid points respectively. We also 
assume a triangulation of (C,S), written S+C, has been chosen: one star is 
defined for each grid point so that grid lines connecting the center of each star 

' with its associated neighbors intersect other grid lines only at grid points. We 
assume atomic polygons are non-degenerate triangles, and say the triangulation 
is proper. 

In this paper the grid (C,S) and proper triangulation S+C are arbitrary 
but once chosen are assumed fixed. 

Let the given Jordan contour J’ in E,, be represented by the vector function 


r:g(), oOstsl(C), 


as a topological image of C, where ¢ is arc length and /(C) is the length of C. } 
Also, let ¢, denote the value ¢ associated with the boundary point v,. The set 
Ih: {b;|6;=g(t,), +=1(1) N} of N distinct points on I’ together with line segments 
joining pairs 5, and 0b,,, defined by 
b(t) =O + (Orir— Oy) se SES haa 
k+1~— *k 

where by,,=0,, define a unique polygon (a piecewise linear image of C also 
denoted by J,) inscribed in I’. 

Definition. Jj: {b;|t=1(1)N} is a proper discrete parametrization of J’, 
written: p.d.p. of J’, if (1) the b; are distinct points on J’, (2) b, is defined as 
the correspondent of v,€C, and (3) }, is oriented relative to its neighbors on I” 
according to the orientation of their corresponding vertices on C. 

Definition. Let Jj: {b;|i=1(1)N} be a p.d.p. of . Then Jj: {6;|¢=1(1) N} 
is a proper discrete reparametrization of Jj written: p.d.rep. of Jj, if (1) J] is 
a p.d.p. of I’, (2) one vertex of Ij, say },, is not a vertex of Jj, (3) 6;=6, for 
t+-k, and (4) b, is on J" between 5,_, and b,,,, where if k=1, b, =by and if 
k=N, by,,=),. 

Thus, if J" is given in any convenient form so that N distinct points may be 

. chosen on J’, then a p.d.p. of J’, call it [, can be defined by associating any one ; 
of the N chosen points on J" with v, and call the point b,. Choose one direction 
for traversing J” and associate the next chosen point with v, and call it b,, the 
next chosen point encountered on J” is 6,, etc. Another p.d.p. of J” would be 
obtained if the opposite direction had been chosen for traversing I’. Still other 
p.d.p.’s of J’ could be obtained by associating other chosen points on J’ with x. 
Clearly, a p.d.rep. of Jj can be obtained from J, by simply ‘‘moving”’ one point, > 
say b,,.on I” between b,_, and 6,,, but not coincident with either b,_, or },,,. 

As approximations to surfaces spanning a particular parametrization of J" 
we will consider polyhedrons spanning a corresponding p.d.p. of I. Let there 








en Sea 


8 A RD Hot Ss tt ts 








nee 








On Discrete Dirichlet and Plateau Problems 361 


be given a grid (C,S) with proper triangulation S+C, and Jj: {b,)i=1(1)N} 
a p.d.p. of I. Let 2): {o;|7 =1(1) M} be a set of M not A distinct points 
in E,, chosen so that 0; wan to s;€S. A polyhedron spanning Jj, written 
do +f , is determined when we define (see paragraph 3.1) for each atomic 


‘triangle in S+C a plane triangular face in E,, having as vertices the images of 


the vertices of the corresponding atomic triangle in S+C.. 


2.2. Statement of the problems 


We shall investigate solutions of the following problems: C may be any 
simple closed polygon in E, with vertices in C, and I’: g(t) is any Jordan contour 
in E,, represented as a topological image of C. 

Discrete Dirichlet Problem I. In E,, let there be given a grid (C,S) and a 
proper triangulation S+C. In E,, let I’: {b;,|¢=1(1)N} be a p.d.p. of I’. De- 
termine that polyhedron spanning the polygon J’ which minimizes Dirichlet’s 
integral (1.2) in the class of all polyhedrons with M not necessarily distinct 
interior vertices and spanning J’. The polyhedron so determined is said to be 
discretely harmonic, or a d-harmonic surface. In paragraph 3.4 an operator L 
is defined, depending only on C,S, and S+C, which represents the interior 
vertices of the solution polyhedron as a linear function of the vertices of I’. 

Discrete Plateau ProblemI. In Ey, let there be given a grid (C,S) and a 
proper triangulation S+C. In E,, let I: {b; |i =1( (1)N} be a p.d.p. of J’ with 
any three distinct vertices specified fixed. Determine local minima of Dirichlet’s 
integral (1.2) in the class of all p:d.p.’s of J” which contain the three specified 
fixed points, Where each parametrization is assumed spanned with its correspond- 
ing d-harmonic surface. The d-harmonic surface spanning a minimizing 1epre- 
sentation is called d-minimal. 

These problems are numbered for future reference. Variations will be in 
restrictions on C, S, and the choice of stars defining S+C when minimizing (1.2). 
The following table assigns numbers.to a few problems where the numbers of 
grid points in C and S are assumed fixed. 


Problems Fixed Variable 


I €,5,8+C 

II C,S+C S 
III S+C in 
IV C,3 S+C 


Higher numbers will be added as needed. Eg., when-studying unstable minimal 
surfaces guaranteed in [9, 10]. 


In this paper we study Problems I. 


3.0. The discrete Dirichlet problem I 

3.1. Dirichlet’s integral for polyhedrons 
Consider an arbitrary atomic triangle A=(a,b,c) in x,, xs-space and its 
image.(a, B, y) in m4, My, ..., 4,-Space defined in terms of baricentric coordinates 


aay: Xp (Ay, Ae) = Ay ay + Ay dy + Ay — Az) Ce k= 1,2 
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-~_ 


+s 


ane U; (Ay, Ag) = Aya; + Ay Bj + (1 — Ay — Ad) y;, p=1(1)m 
where the rN Be range over the set 
(3.1) ’: {(Ay, Ae)| Ay => 0, AQ=>O, 1 — A, — A, =O}. 


The Dirichlet — over A is 
= 2 ffAill al +( sm) i) [day dy. 


Since the Jacobian of the linear function x(A,, A,) is 


11 1 
J = a) le b, c,|] = +2[area 4] +0, 
8 (Ay, As) 
Ay by Ce 


a change of variables of integration to (A,, A.) and carrying out the integration 
leads to 
1 


¥ [le,—»,) (5, — cy) + (8; — Yj) (— a, +c) }? 


“os 


4] i k=1 
(3.2) . ao bt 4 SP 
== ri z 2 a, b, Cr 
j=1A=1ly B 
* Pi Vj 
Since Dirichlet’s integral over S+C is 
(3.3) D(X+T) =2Ds, 
S$4+C 


we have for fixed S+C a quadratic form in the vertices of 2+J°. We agree 
henceforth to associate a, b, c respectively with vertices of each atomic triangle 
counted counterclockwise, so (3.3) is positive semi-definite. If 2’+J" does not 
reduce to a point, (3.3) is positive definite and finite critical values of (3.3) are 
minima. 
3.2. Local conditions for d-harmonicity 

Theorem 3.1. For any K=>4, let S+C be a proper triangulation of (C, S) 
which contains a star (see figure 1) with vertices {s,|k=1(1)K} consisting of 
K —1 non-degenerate atomic triangles having s, as a vertex. The areas of the 
triangles I, II,...,(K—1) are denoted by J,, Jo,..., Jx_1, respectively. Then 
for fixed {o,|k=2(1)K} the unique choice for o, determining the polyhedral 
patch xz, such that Dirichlet’s integral is minimized in the class of all such 
polyhedral patches is given by the vector equation 





= wi Li be bea A i ak 





0; 
we fone Tei Ke Sho 
on yo [a> een + hh +1 — Ig hp +1 COS (9x — On +1) 
— . Jk-2 ee. Se-1 : 
where 


I = T- 1> h, oa hy, hx 3. = hy, a, = Ox, and Ox i D,. 
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Proof. Let D,, denote the Dirichlet integral over the element of S+C 
A 
corresponding to J,, and D(o,)= >) D,,_1 is the Dirichlet integral over the star 
k=2 
with s, as center. For k=2(1)K —1 


D, ” a ae: ae (o, = On+1)? [hi aa Keay an id 2h, Nyaa cos (#, ca O41) | 
— §64#has — 20, (0, — o% +1) lee — My ly. C08 (I, — By 5 1)] 4- Opa (Ons Oe 5-1) 








thus 
03 (Ae + hey — 2h, hy, cos (0, — 
aD) & 2 (n+ k+1 k +1 008(0, Ox, 1)) 
do = De ancy | ~ MH (hss — Ie ns 6080, — Ary) | =9 
— Opti (hi, — hy hy, cos (8, — 3,41) 
4X2 
which after obvious grouping of terms P Gy! a 
gives (3.4). The uniqueness is clear, / 5 
since D(o,) is quadratic in o,. ty 
Corollary 3.1. If C is a regular poly- 
gon with vertices {s,|7=2(1)K} ands,is / tA Piss 
the center of the circumscribed circle, the s, Pa 
condition for d-harmonicity is A 
Ps 
(3.5) (K — 1)0,= Dio,. 53 G& % 
k=2° Fig. 1. #&=arg(sj—s,), t=2(1) K 


The condition (3.4) may be written in the following form which involves 
the coordinates of grid points in (C, S) explicitly. 





2 

k & (Sk, m— Sk+1, m)” eof 
=1 O, 3 
k=2 Tr-1 


2 
ys (Sp +1, — Sk, m) (Sp { 1,m—S, m) 
m=1 


hae go ote © gee Fe 


2 
| X (se—1m—Se, m) (Sk—1,m—S1,m) 


where Ss, ,, denotes the m-coordinate of grid point s,, and sx, = S,. Also, 0x. =. 


3.3. Remarks on the conditions 
Since (3.3) is a weighted sum of squares of partial derivatives on the faces 
of Y+J°, then (3.4) is a condition that a linear function of these partial derivatives 
be zero. The coefficients of this linear function depend only on (C,S) and S+C. 
Since {o;|0;=+1, 7=2(1)K} in (3.4) gives o,=+1, we may write (3.4) in 
the form 


(3.7) > By (o, — %1) = 0, 


k 
where the f, depend only on (C,S) and S+C and are unique up to a common 
constant factor. 
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For the triangulation of figure 2, B,=— 3.064, Bs=f8;=22, By=7.404 and 
5 
2 B, =48.4. For (62, 63, 04, 05) = (1, 0, 0, 0), (3.4) gives o,= — .0633. Thus x, lying 


ine s+ {s,|k&= 2(1)5} takes its minimum at ‘an interior grid point, yet 
D (o,) = D(—.0633) = .05148 
while D (0) =.1. 
That condition (3.4) may 
not always be derived from 
Fig. 2. hy=10, hy=h,=h,=1; 0,.=0, 0,=2/6, 0,=2, 0,=112/6 modified Taylor expansions 
about s,, see [7] p. 186—189, 
follows from (i) the uniqueness of the #, in (3.7) and (ii) the triangulation in 
figure 2 is such that the f’s determined by (3.7) do not eliminate first order 
terms in the Taylor expansion about s,. 
The nine point formula for the square, [5] p. 239, is an example of a condition 
not given directly by (3.4) when S+C is determined by the diagonals and lines 
joining midpoints of opposite sides. 





—-+> x; 








5 

















3.4. The system defining the solution 
Given a grid (C,S) and proper triangulation S+C, let A, denote condition 
(3.4) evaluated for the star of S+C with center s;¢S. Then A, is a linear function 
of the vertices of X+J°. Since vertices of J’ are assumed fixed we write A ; as 


(3.8) DAnoi =I, ( =F Byrd, 


where A;;=0 for ¢ corresponding to s;€S not elements of the star with center s,, 
and /; is a linear function of the vertices of I’ with B;,=0 for k corveaponding 
to v, eC not elements of the star with center s;. The conditions for d-harmonicity 
at the M interior grid points may be written 


(3.9) Aao=Bb 


where A and B are real MxM and MXN matrices respectively, while o (un- 
known) and b (known) are column vectors with components indexed by cor- 
respondents in S and C respectively. If we can compute A~, then 


(3.10) o=A1Bb=Lb, 


and L is a linear operator which solves the Discrete Dirichlet Problem I. That 
is, L depends only on C,5, and S+C and defines (as a function of ” component- 
wise) the interior vertices of 2’+J" so that (3.3) is minimized in the class of all 
such polyhedrons spanning J”. 


3.5. On existence and uniqueness of solutions 
If I’ has at least two distinct vertices and Y+TJ is any finite initial guess 
at a minimizing polyhedron spanning I’, then 0< D(Z+T°)<-+ 00. With unique 
operators defined by (3.4), application of Poincare’s sweeping-out process [7], 
or equivalently Gauss-Seidel iteration [6] on (3.9), produces a minimizing se- 
quence, [3] p. 8, of polyhedrons spanning J’ which converges to a polyhedron 
spanning J” with interior vertices satisfying (3.9). Thus, a solution of (3.9) exists. 




















On Discrete Dirichlet and Plateau Problems 365 


If each condition used to define (3.9) defines a patch which always takes 
its maximum and minimum on the boundary of the patch, then the solution 
is clearly unique. E.g. conditions of corollary 3.1 have this property. In such 
cases we can compute the columns of L by superposition. 

The author has proved det A>0 for S+C any proper triangulation of (C, S) 
with M=2 and N=4. Thus, the presence in S+C of a star like that in figure 2 
does not in general affect uniqueness of a solution to (3.9). , 

The general question of uniqueness of a solution of (3.9) as well as analysis 
of the character of the solution as mesh size is decreased will be considered in 
a subsequent paper. 


4.0. The discrete Plateau problem I 


4.1. An analog to the Douglas functional 

Given a grid (C,S) and proper triangulation S+C, let (C,5) be written 
as a single indexed set G: {r;|/=1(1)N+M} with C: {7;|7=1(1)N}. Also, 
let I: {b;|7=1(1)N} be a proper discrete parametrization of the given Jordan 
contour J” in E, where three vertices of J’ are specified fixed, and let Z: 
{0, |j=N-+4(1)N-+M} be any set of M not necessarily distinct points in E,,. 
I and & are assumed defined as images of elements of G with corresponding 
indices. Let Y+J° denote the polyhedral image of S+-C spanning the polygon J’. 

With these conventions on notation, Dirichlet’s integral (3.3) over S+-C may 
be written 


(4.1 DET) = 3 Bisby 


where #;; is the real coefficient of the scalar product b;b;, and p;; depends only 


on G and S+C. Writing £;;=[£;;+;;]/2, we obtain the form 


N+M 
(4.2) D(2+T) = 2 is bi 
i, j=l 

The matrix [#, ;] is symmetric. We write [f;;]= P+@Q-+R where the potentially 
non-zero elements of P form an N x N matrix: the coefficients of scalar products 
of elements of I” with elements of J’; potentially non-zero elements of Q and R 
are coefficients of scalar products of elements of J’ with elements of X and 
elements of S with elements of 2, respectively. 

After possible reordering of rows and columns of the Laplacian operator L, 
(3.10), to agree with the indexing of elements of G, we extend L by adding N 
rows in the form of an identity matrix to obtain 


(4.3) b; =DLj,b » j~=tt)N+M. 


On substituting (4.3) into (4.2) we obtain an analog to the Douglas functional 


N 


(4.4) =) d;;6 i b;, 


i,j=1 








366 WALTER L. WILson, Jr.: 


a positive definite! quadratic form in the vertices of I. We seek: local minima 
of this functional (or an equivalent form, see Theorem 4.1, below) in the class 
of p.d.p.’s of J” which satisfy a three fixed point condition. 


4.2. Another form for A(I°) 
Theorem 4.1 is based on the following lemmas. 


Lemma 4.1. The contribution of Q to [d;;] is an N xN symmetric matrix, 
representable as the sum U+U7 where the rows of U are composed of linear 
combinations of rows from the Laplacian operator L. 


Lemma 4.2. d;;=d;;,: and d;;20 for each 1,7. 
N 
Lemma 4.3. >) L;,;=+1. 


t=1 
N+M 


Lemma 4.4. 2,20, 3 2;;=0, i=1(1)N+M. 
j=1 


Lemma 4.5. For any range of indices («, 8), if A,, are coefficients of a 
quadratic form, and if A,,=A,,, then a necessary and sufficient condition that 
there exist coefficients B,, such that 


D Aap te ty = 2; Bug (ta a ts)? 


is an identity in ¢,, is that }'A,,=0. Furthermore, if this condition is satisfied, 


symmetric values of B,, are given by B,,;=— }A,,. 
Theorem 4.1. 
N 
(4.5) )= LE j (5; — 5;)?, 
1 j= 
where F;,= — $d; ;. 


Proof. According to lemmas 4.2 and 4.5 we need only show 2 a;;=0. In 
(4.4), dij= 2 Pim; Lm;, and using lemma 4.3 we get 


=2 Z Pam Las L mj = 2 bam Lai’! 


3 


Then, summing on m we get (by lemma 4.4) 
ai; = 2 Fe Pam Las =0. 


Corollary 4.1. F,=— > F (4.6) 
1( +1) 


Form (4.5) represents Se. as a weighted sum of squares of distances between 
vertices of [. 


4.3. Minimizing sequences 
The contribution to A(J}) of all terms involving the single point 5, is written 


(4.7) A(I;); =2 SF (b; — b,,)*. 


1 We assume J’ has three distinct vertices. 
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If J, is a p.d.rep. of J}, obtained by replacing 6; with 6,;, then 
AA(I;); = A(l,) — A(Ip-1) = A(T); — AU -a); 


= 2(6, — b,) |2 > Fm (b; — On) — (b; — 5) F; 


an exact difference equation. 

The following is a sample algorithm, using (4.8), for computing a sequence 
{T,|p=1, 2, ...} of p.d.p.’s of I’ such that A(I})<A(Jj_,). 

As in section 2.1, we suppose /” is represented as a topological image of . 
with “a length ¢ as parameter. Suppose (¢; is the value of ¢ at 7,€C) I 
{b; =g(a,_1(¢,))|¢=1(1 ) N}. Assuming 0; is not a fixed point, we ask: Can T 
be obtained from J),_, by replacing 6; with 6, on I” between 6;_, and b;, a7 This 
question is sneered * programing the following steps. 


1. For k=1, 2 and an integer B>1 
Hk (tn) 5 Xp — 1 (tm) for ™m + 7 
= Oy -4 (tm) + 27° K;, for m=], 

where K;,=|6;,, —6;| and K;,= —|b;_, —,|; 

2. bj =e (%pi(¢;)) and b:.=g(%po(t;))- 
Both Ip ,: {g (%pe(t;))|¢#=1(1) N}, R=1,2 are p.d.rep.’s of I} _,; 

3. compute 4A(Jj,); and 4A(I;,);. 
If AA(I},);<0 then A(I,,)<A(J,_,) and we can repeat the process to compute 
the next element of the minimizing sequence. If 4 A(J},,);20 and 4 A(I,.);=0 
then using the same # one could ask if a p.d.rep. of J, _, obtained by moving 
another element of J, would reduce A(/’). If 4A(I},);20 for k=1,2 and 
j7=1(1)N then replace B by 6 +1 and try moving 4,, etc. 

For the example of section 5 we adopt the following 

Definition. I}, is minimizing if, after B is chosen so large that max |b; n—9;| 
is less than a preassigned number! we still have 4 A(J,,);2=0 for tui. 2 and 
p=1(1)N. 

The d-harmonic surface 2'+ J’, defined by (4.3), spanning a minimizing J), _, 
is said to be d-minimal. 

Generally, the particular minimizing representation J, obtained by our 
methods is determined by a combination of the following conditions: (1) the 
nature of the contour J"; (2) the shape of C, number and distribution of elements 


(4.8) 


(4.9) 


.of (€,S), and definition of S+C; (3) the placement of the three fixed points 


on J"; (4) the choice of initial parametrization Jj; and (5) the algorithm used 
to form the minimizing sequence. 


4.4. Some properties of solutions 
We now illustrate a method for computing bounds* on the “spreading’’ of 
vertices of a minimizing representation I; - 


1 Eg. an approximation to the smallest number such that max AA (Ips); i s 


significant in the calculation. 
2 See [2] p. 689, for bounds in the continuous case. 
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Let (C,S) be a regular triangular grid where atomic triangles in S+C are 
equilateral. If the vertices of any atomic triangle 4 in S+C have images 
(x, B, y) then (3.2) becomes 


Dy = [et + + y= a ~ ay — By) 


where products are scalar products in E,,. 

Lemma 4.6. (y —f)?< $[2/3Dy]. 

Let Ij, be a minimizing representation of J’, and let 2'+J" be the correspond- 
ing d-minimal surface. Let M be the maximum value of D, (defined on the 
faces of X'+ J"), over the set of atomic triangles in S+C with two or more vertices 
7 on C. If 6; and 6; are any neighbors on 

T,, we have 

Corollary 4.2. (b; — b,)?< $(2 3M): 
\ It is clear that a contour J’ with J, a 
1 minimizing! p.d.p. of J’ could admit an 
improper reparametrization? of J}, call 
Fe “ it I, such that A(’)< A(I). 














/| 2 
rz The plane three-pronged star of fi- 
Na gure 3 is a contour which illustrates the 


importance of choosing carefully the 

“fixed points’ and Jj the initial p.d.p. 

of J. Here, if the fixed points are 
Fig. 3 1 1 1 

(53 »+ 3) and (- V3" 0), and the other 
elements of Jj are chosen on the sides of the prongs (none on the ends), then 
with an appropriate algorithm for computing minimizing sequences the elements 
on the sides will approach the nearest fixed point and none will move onto an 
end-segment of J’. Collapse could have been avoided here by choosing fixed 
points on the ends of the star. 








4.5. Minimizing representations by solution of a linear system 


Thus far we have studied extrema of A(f*’) by computing minimizing sequences 
of representations of I’. 
In this paragraph we indicate how, if J” is composed of linear arcs, we can 


compute local minima of A(/’) directly. This is accomplished by reduction of 


the problem to that of solving a system of linear equations. 
Let J’ be a Jordan curve in the form of a polygon in FE, given by 


P: gj, astsb,  g(a)=g(d), 


where the vertices of J” are {g(a,)|a=ajy<a,<a,<---<a,=b}. Now, g’(t)= 
(C1, C,2) = constant on a,_,<t<a,, for k=1(1)o. We assume three of these 
vertices are chosen as our fixed points. 


1 See the last paragraph of section 4.3. 
* E.g. allow some b; to coincide with or pass one of its neighbors on J’. 














Aa 


24 
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If Ij: {0;(¢)|¢=1(1) N} is a discrete parametrization! of I’, if b; is movable 
implies }; is not a vertex of J’, and if we assume that points cannot turn corners, 
then b,=(C,,, C,:) may be interpreted as the constant rate? at which point b 
is permitted to move along the associated line segment g(t), a,_,<¢<a,, or its 
extension. We write b= (C;,, Cyg) where C;, and C,, are pre-assigned constants. 

We now look at the Euler condition that A(I’) be a minimum. For any 
choice of Ij: {b;(¢)|t=1(1)N} with by_., by_,, and by fixed points®, we write 


A (Iq) = J) =X Fp (ba — 5,)*. 
Now I, minimizes J(¢) only if the movable elements of J} are chosen so that 
J'()=0. That is, a A . b,,=0 for m=1(1)N, or4, 


(4.10) D Fap (bm — 2%) + by =0, m=1(1)N—3, 
B 


where b. = (Cin1» Cmo)- The product is scalar product in E,. 
The expanded form of the m-th equation of (4.10) is 


° N N 
(4.11) 2 Emp (bm ee bs) Din —— Co,21 Fine bgy + Cm2 2: Fimo bse =0. 


Thus, J}, is a minimizing representation of I’ only if its movable elements satisfy 
a system (depending on the choice of J) of N — 3 linear equations in the 2(N — 3) 
unknowns (6,,, 5;9), #=1(1)N —3. 

The condition that movable points remain on assigned sides (or their ex- 
tensions) may be written as a system of N—3 linear equations. The m-th 
equation involves exactly two unknowns, (b,,,, 5,2). These equations may be 
used to reduce (4.10) to a system of N — 3 equations in N — 3 unknowns, written 


(4.12) Ab=B, 


where the column vector B is a function of constants by_», by_4, by, 
{b,| i =41(4)N - — 3} and constants due to reduction of (4.10), and the m-th com- 
ponent of the (unknown) column vector 0 is one of the unknown coordinates of 
movable point 6,,. 

The system (4.12) is solved and backsubstitution into the conditions that 
the b, lie on extended sides of I’ gives a solution J} of (4.10). If J is chosen so 
that the solution J} has its points on the appropriate® sides of J’, then we have 
a proper minimizing representation. Otherwise, re-assignment of elements of Jj 
is in order. 

In [16], we found some success in applying this method to the three pronged 
star of figure 3. 





1 Elements of J, are assigned to sides of I. Several (or no) elements may be 
assigned to any side of I. 

2 C,,/C,, is the slope of the side of I to which ); is assigned. 

3 by, by_,, and by_, may be any three vertices of I’ with several or no elements 
of J, assigned to sides between any two fixed points. 

* by_g=by_,=by=(0, 0). 

5 Corresponding to assignments in J}. 

Numer. Math. Bd. 3 26 
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For an extension to polygons in E, one needs to find N —3 more linear 
relations involving the 3(N—3) unknowns, which with the above mentioned 
2(N — 3) equations now in 3(N — 3) unknowns forms a linearly independent set. 
We did not use this method for finding minima of A(/’) for any specific contours 
in Ej. 

5.0. An example 
5.1. Statement of the problemmm | 

Let J" be a unit circle in E, defined as a topological image of the equilateral 
triangle C in figure 4. Let (C,S) and S+C be the regular triangular grid! and 
proper triangulation indicated in figure 4. Using the methods of section 4.3, 
compute a minimizing p.d.p. of I’, call it I’: {b;|i=1(1)63}, and a corresponding 
d-minimal surface Y+J°, with Y: {o;|7=1(1)190}. We assume the images (bg), 
bee, ¥g3) Of the vertices (t¢,,, t¢., ¢g3) of C are the fixed points, with b,,=(1, 0). 


byy=(— +, 13), and t4=(—+4, — 1B). 


2 2 | 

















Pm * Le 
4 
L\J\JVVV/ 
ben tan ig X% bo & 
Fig. 4 


5.2. The solution 


The operator L, (3.10), was computed columnwise by superposition as sug- 
gested in section 3.5. The [F;;] matrix, (4.5), was computed with the aid of 
theorem 4.1, the decomposition of [/,;] in section 4.1, and lemma 4.1. These 
particular matrices have been placed in the U.M.T. files of Mathematics of 
Computation, [17]. 





1 Indexed as indicated in figure 4. 
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One check on our “‘solution” J” was to compare A(I’) with the area of the 
unit circle. We found |A(I’) —2|<10-4. 





The mapping 
__ —b+ \FRaae8 
(5.4) {(w) = 20 ’ a +— 0 
=0 when «=0, 
with 


a(w) = §8(w; 0,1) —14, B(w) = 263 (w; 0,1) +1, 


. es. oe 
23 6° 2/3 
the interior of circle |/|=1, where w,.=2]/3wz. and wg is the real half-period of 
the equianharmonic case of the §-function of Weierstrass: §(w; 0,1), see [8] 


p. 184, and [13] p. 34. The centroid of T, w)= . 


of the circle, and §(w,; 0,1) =+1. The images of vertices of T are the fixed 
: 1 3 1 3 . 
points (1, 0), (— *? 3) and (— - Ws). 

The error in evaluating (5.1) at points corresponding to elements of (C,S) 
was approximately 10-5. We found the maximum absolute value of the differ- 
ence of elements of (J°, X) and corresponding elements under /(w) was less than 
1072. 

The particular algorithm which we used to compute minimizing sequences 
is probably the principal contributor to the lack of symmetry of our solution. 
This lack of symmetry is generally the order of the difference of our values and 
corresponding values of {(w). A variation in the algorithm for computing mini- 
mizing sequences may improve our approximation to this mapping. 








. maps the interior of triangle T: ( +4- i ; 0) conformally onto 


corresponds to the center 





Table 5.1 Mapping of boundary points 














| & | be | hen] Re f(we) | Tm f (eg) 
| | 
(fixed pt.) | 61 | 1.0000 0000 | 1.0000 :0000 
1 | 9999 .0009 | 9999 .0010 
| 5 | .9917 1280 | .9916 1283 
| 10 | .5979 8015 | .5959 .8026 
| 15 | .2936—- | .9559 | .2975- | 9544 
| 20 | .4969— 8677. | .4991— .8665 
(fixed pt.) | 62 | .5000— £8660 | .5000— | .8660 
|. 24 | .§002— .8658 .5008 — | .8655 
| 25 | .6036— 7972. | .6068— | .7948 
| 30 | .9928— 1193 | .9933— | .1150 
| 34 | .9938— AM1— .9933— | 1150— 
| 36 | .6088— .7932— .6068— | .7948— 
| 40 | .5023— 8646 — .5008— | .8655— 
(fixed pt.) | 63 | .5000— .8660— .5000— | .8660— 
| 44 |. .4997— .8661— | .4991— | -8665— 
| 46 | :2988— .9542— 2975— | .9544— 
| §4 | .5964 .8026 — .5959 | .8026— 
56 9917 .1282— .9916 .1283— 
60 .9999 .0010— | .9999 .0010— 








26* 





372 WALTER L. WILSON, JR.: 


_ Table 5.1 is a sparce paired listing of elements of our minimizing [’ and 
corresponding elements obtained with (5.1), where w, is the point in the w-plane 
corresponding to ¢, in C. 

Table 5.2 is a sparce paired listing of elements of and corresponding elements 
obtained with (5.1), where w, is the point in the w-plane corresponding to s, 


in S. See figure 4. 
Entries are not rounded in either table. 


Table 5.2. Mapping of interior points 





On: Oks Re f(wx) | Im f (wp) 

| 

-9946 .0000— | 1.0000 .0000 
9677. |. .0348 -9677 .0349 
-9677 .0349— -9677 .0349— 
.9119 1456 9117 1459 
8652 .0000— 8650 .0000 
9118 1457— 9117 1459— 
-5677 -5969 5665 -5979 
4947 .0002 ; .0000 
-5666 .5974— .5979— 
.0009 1466 1457 
(center) .0006 .0010 : -0000 











-0002 

-4946— 
-5791— 
8165 — 
-5838— 
-4988 — 





.1447— 
.8629 
-7191 
.0034 
-7150— 
.8604 — 








-1457— 
.8614 
.7167 
0000 
.7167— 
.8614— 
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Zur Konvergenz des Jacobi-Verfahrens 


Von 


A. SCHONHAGE 


1. Einleitung 

Das zuerst von JAcoBI [/] angegebene Verfahren zur numerischen Berechnung 
der Eigenwerte reeller symmetrischer Matrizen fand mit dem Einsatz elektroni- 
scher Rechenanlagen erneutes Interesse. Es ist unbeschrankt anwendbar und 
gegeniiber Rundungsfehlern vdllig stabil (vgl. [2]). Numerische Experimente [3] 
zeigen, daB die Konvergenz wesentlich schneller erfolgt, als es nach der z.B. in 
[2] gegebenen Abschatzung (lineare Konvergenz) zu erwarten ist. HENRICI [4] 
weist nach, daB im Falle einfacher Eigenwerte von einer Stelle an quadratische 
Konvergenz eintritt. 

Die in [4] gegebenen Abschatzungen sind jedoch so grob, daB sié nur als 
qualitatives Resultat anzusehen sind. Hier soll bei vereinfachter Beweisfiihrung 
eine wesentliche Verbesserung der Abschatzungskonstanten erreicht werden. 
Weiter wird gezeigt, daB auch im Falle mehrfacher Eigenwerte noch quadratische 
Konvergenz eintritt, sofern diese héchstens doppelt sind. SchlieBlich wenden 
wir unsere Methode auf eine Variante des klassischen Jacobi-Verfahrens — sog. 
zyklische Verfahren — an und erhalten auch dort eine Verscharfung gegeniiber [4]. 


2. Das klassische Jacobi-Verfahren 


Die vorgelegte n-reihige (n=2) Matrix Ay={a,, ,} wird durch sukzessive 
unitare Transformationen, bei denen die Eigenwerte «, von A, bekanntlich nicht 
geandert werden, annahernd auf Diagonalgestalt gebracht, 


(1) A,,,=U,A, U, . 


U, wird dabei nach folgender Vorschrift aus A, bestimmt: Man sucht auBerhalb 
der Hauptdiagonalen ein Element von maximalem Betrag 


(2) | a, i, be| = max | 4,,,,4| =m,, 


U, wird gewahlt als Drehung in der durch die Koordinatenachsen 1,, k, bestimmten 
Ebene um den Winkel 








24y, ty, Ry 
ae f 
ay, tp, tp ay, Rp, ke | 


(3) = + arc ts 
also 


Uy, ir, > Uy, he, hyp COS @,, Uy ie, ke said heed u, he, te sin P;> 


u, , =, , fiir alle tibrigen Indexpaare », yw. 








Re A Ba IM eb 
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(4) und (3) liefern damit 


(4a) By +4, ip, ip = yin, ip COS® Py + Ay hp he sin? g, + Gy, ip, ky SIN (29,); 
Gy +1, he, ky — a, tp, ty sin? PY, + a, her, ke cos? YP, — Uy he, ir sin (2 ,) , 
(4b) By +-1, ip, hy = 44-1, he, ip = 93 
(4c) Fy +1, inv = 4,41 9, i, = Us, 9, ig COS Py + G, yk, SiN YP, fir 9 ate “st k, 
Gy 1, kp,v = 441,90, kp — — 49,5, sin Y, > Ay » kp COS Y, 
(4d) G,419,4—=4,»,, fir alle tibrigen Indexpaare », yw. 


A,,, und A, haben die gleichen Eigenwerte und die gleiche Norm: 
l,i? => arya .=D on = |/A,[; 
aad 


¥,u 


andererseits folgt aus (4a) 


Ms: 


n 
2 _ 2 2 
2, &+1,99= aot 2 Ay i, hp? 
vy=1 


y=1 


somit also 
2 2 2 
(5) p> Art typ “a » Gy, p T 2p, ip, ity 
vu vu 
Die GréBe y,= |/ > a?,,, ist demnach verkleinert worden; sie ist nun gerade 
vu 


eine Schranke fiir die Abweichung der Diagonalelemente von den gesuchten 
Eigenwerten: Wir zitieren ohne Beweis (vgl. etwa [4]) 


Satz 1. K und L seien symmetrische Matrizen mit den Eigenwerten x,Sx%S 
+++ Sx, bew. ASA.S---SA,. Dann gilt 


Wahlen wir K=A, und L als die Hauptdiagonale von A,, dann folgt bei 
geeigneter Numerierung 


(6) tx, — a, , ,| S7,- 
Die Konvergenz y,—>0 erhalt man aus (5) und der maximalen Wahl (2): 
Yer =Yr— 2m; yy Sn(n—1)m,, 
also 
2 2__),8 epee. WE Ls 
(7) View S(t 8 sstemay) v(t - ey) Yo: 


Das sichert die lineare Konvergenz des Verfahrens. 
3. Quadratische Konvergenz 
Wir setzen nunmehr voraus, daB die Eigenwerte von A, einfach sind, 
(8) ja,—o,|24>0 (yn). 
Wegen (7) gilt aann von einer Stelle 7) an-2y,< A, also wegen (6) 


|4, o9— a, up| 2A — 2y,2 4 — 2y,,> 0. 
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Hierius ergibt sich, daB die Drehwinkel gy, schlieBlich sehr klein werden, namlich 
nach (3) (wir nehmen vereinfachend 7,=—0 an) 


| a;, Tr, he 
-* A—247 r 


2 Gy, ip, he 








a 
(9) |sin y,| S| 9,| = Saretg| = 


so daB gemaB (4b) bei einem Schritt jeweils zwei Elemente auBerhalb der Haupt- 
diagonalen annulliert werden, wahrend sich die iibrigen durch (4c) nur wenig 


andern; nach + (n —1) Schritten werden auf diese Weise alle ,,groBen‘ Elemente 


’, ty, ty ge ay, Re, Ry 


beseitigt sein. — Unser Ergebnis lautet 
Satz 2. Aus 2y9<A folgt mit r,= = (n —1) 


(10) a iz i* va 


Zum Beweise zeigen wir zunachst induktiv fiir alle r<7,: 
Fiir gewisse 2r Elemente a,, , auperhalb der ae gilt 


rms 
(11) >, tinu& (2m — 4) ( pay 


Fir r=1 stimmt (11) wegen aj, ;, s,=41,%,,i,=0.- 
_ Nun sei (11) fiir ein r<7, vorausgesetzt; dann gilt (11) insbesondere, wenn 
man die betraglich kleinsten 27 Elemente auBerhalb der Hauptdiagonalen wahlt, 
so daB a, ; ,,=4, ,,,;,, nicht darunter vorkommen. Die Annullierung dieser zwei 
weiteren Elemente erhéht so die Zahl der a, auf 27+ 2, so daB (41) nur noch 
fiir die bisherigen a, , auf den Index 7+1 zu iibertragen ist: 


(12) Salty mo 4 Satie (@;31.u— 4 F 
in der zweiten Summe entfallen wegen (4d) alle Glieder mit », u=+1,, k,. Kommen 
sowohl a, ; ,, als auch a, ,, vor, dann folgt aus (4c) 








2 2 2 ‘ 
By +1, ig, uw Fy 41, by, up = 4, ip, 1H Fp, hep, gw? 


somit bleiben nur noch die Falle zu betrachten, bei denen in solch einem Paar 
genau eines der a,, vorkommt; dafiir gibt es aber héchstens 2” — 4 Méglich- 
keiten. Solche a; , ‘beseichnen wir als a,’, und schatzen etwa fiir den Fall »=1,, 
u+t,, k, folgendermaBen ab: 


| 455, tp.u — rd] S| p,m — Fr, 4,n| Sin? p, + 2| sin y, COS P,| + | Mp, by, ul *| 4r,in, al 3 
wegen |a, ,.,,|<m, und (9) folgt weiter 


2 ___ ms} ” 
= Ta—2ay,)* + =r “ayy Melee 
und damit 
9 m$ 2m} 
(13) | >) (@rt4,,6— a; ,u)| S (2m -« (4— Sia )? . A—2Y ‘Lle, vor 


Nach der Schwarzschen Ungleichung ist 











D | 4», ul = 2 —4: yz a, us 2" sii 4d a,’ vy," 
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Aus (12) und (43) ergibt sich schlieBlich 


Dd) 4arda, i. => <> a,*, pt ae = Ee Varn aa ‘of ees Ot 


=( Denn ay 


A—2% 


woraus (11) nunmehr auch fiir den Index 7+ 1 pnemae ier folgt. Um Satz 2 
zu beweisen, wae ia jetzt in (11) r=7,, so daB also > a;*, , =Yr3 wegen (2) 


und (5) gilt y§—2 ) ms=y;,, also sicherlich 


e=0 ‘ 
(14) Limes t7- 
Durch Ubergang zur Wurzel in (11) erhalt man somit (40). 


Die eingangs erwahnte analoge Abschaétzung von HENRICI lautet in unserer 
Bezeichnungsweise 


(45) %& = - exp (0,854?) - # (unter der Voraussetzung 47 < 4). 


Schon fiir »=10 liefert (15) den fiir praktische Anwendungen wohl kaum ver- 
wendbaren Faktor 500- exp(85,4), wahrend wir in (10) gerade den Faktor 2 
erhalten. Zum Vergleich sei auch die Abschatzung 


1 
a aba 


die aus (7) folgen wiirde, herangezogen. (10) liefert eine bessere Abschatzung, 


sobald 
A 


ape) 
Bemerkenswert ist, daB auch im Falle héchstens doppelter Eigenwerte qua- 
dratische Konvergenz eintritt, was im wesentlichen darauf beruht, daB das 


Jacobi-Verfahren die Lésung quadratischer Gleichungen (n= 2) in einem Schritt 
erreicht. 





Yo< 


Wir werden hier jedoch mehr als > (n—1) Rotationen zu einem groBen 


Schritt zusammenfassen, so daB der Begriff ,,quadratische Konvergenz‘‘ in fol- 
gendem Sinne zu prazisieren ist: Wir nehmen 


ig lg +-\ 
VY, = lim te 
7—>0o Y 


als MaB fiir die Konvergenzgeschwindigkeit. Aus der linearen Konvergenz (7) 
folgt lediglich y,=0. Satz 2 jedoch liefert y, => ae . So wollen wir allgemein 


von quadratischer Konvergenz reden, wenn y,> 0 erfiillt ist. 
Unser Ergebnis im Falle héchstens doppelter Eigenwerte ist 
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Satz 3. Ina,Sa,S---Sa,, set a,,,;—a4,24>0 dis auf p Paare mit a, .,—«,, 
<A, «1-5 Oy41—%yy<A, die threrseits getrennt liegen, d.h. |v, —v_|22 fir nn. 


Dann gilt mit 2y)<A fir ein r’Sr,= 5 (n—1)+b(m—2) 
n 

(16) Ves a 

Zur Herleitung von (16) haben wir die Beweisfiihrung von Satz 2 etwas zu 
modifizieren. Zunachst denken wir uns ohne Einschrankung A, so umgeordnet, 
daB ay 114% .225°*'S4,,,; dann ergibt sich wegen der peg > pd 27%9< 4 
gemaB Satz1 aus |a,,,—a,|<yo die Lagelans |a,,—4, ,| 24 —2yp bis 
auf die p Indexpaare v=v,, w=v,+1 (7=1,..., PD), zu ye: wir auBerhalb 
der Hauptdiagonalen 2 kritische" Riemente Ma A ball erhalten, bei 
deren Annullierung die Abschatzung (13) verletzt werden kann 

Beim induktiven Vorgehen zur Herleitung von (11) gehen wir nur innerhalb 
der nicht kritischen a, ,, zu den betraglich kleinsten iiber, wahrend die einmal 
durch Annullierung gewonnenen kritischen a, ,, beibehalten werden sollen Ist 
4, ;, x, ein nicht kritisches Element, dann gewinnen wir zwei neue a,,,, wie beim 
Beweise von Satz 2. Ist a, ,, ,, jedoch ein kritisches Element, dann nehmen wir 
zunachst einmal an, es kommt unter den a, noch nicht vor; iiber die a,’, , 
kénnen wir dann nichts aussagen; es handelt sich dabei aber um héchstens 
2n —4 Elemente, die wir dann nicht mehr zu den a,,, rechnen wollen. Dadurch 
werden also héchstens » — 2 Rotationsschritte zusatzlich nétig. Zu beachten ist, 
daB unter den verlorenen a;’, keines der einmal gewonnenen kritischen a, ,, vor- 
kommen kann, weil die beltiechen Elemente nach Voraussetzung in outinaader 
fremden Zeilen bzw. Spalten liegen. Somit kénnen nur héchstens # (m — 2) Schritte 
zusatzlich nétig werden, so daB fiir ein r’ <7, alle Elemente auBerhalb der Haupt- 
diagonalen zu den a,,,, gehéren, woraus .” zu Satz 2 


= /%- i rs 


folgt, was sogar besser als (16) ist. Es kann nun aber auch schon vorher der 
Fall eintreten, daB a, ;,,, eines der kritischen a,,, ist. Hier schatzen wir nach 
(4c) und (9) ab, auf welche GréBe ein einmal annulliertes kritisches Element 
wieder anwachsen kann: 


| 4741, ipl = | 4,4, COS ?,| + |, he, sin ?,| S | 45,5, + mM, 








— 
A—2y,’ 
also 


1 2 1 ve 
oe ae i ie 
I4r,nu| S A—2% as 2 A—2% 
gemaB (14). Kommt a,;,, also unter den kritischen a,,, vor, dann hat man 
wegen (2) 


mM, S + a5 und wegen y,Sn-m,_ schlieBlich (16). 


Satz 3 stellt in seiner quantitativen Fassung eine gewisse Erweiterung von Satz 2 

dar; man kann auch im Falle einfacher Eigenwerte schon vor Erfiilltsein von 

2v0— min |a, —a,| auf quadratische Konvergenz schlieBen, sofern dieses Mini- 
vee 


mum nur von isolierten Paaren «,,«, angenommen wird, wahrend die «, im 
iibrigen wesentlich gréBere Abstande voneinander haben. 
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4. Zyklische Jacobi-Verfahren 
HENRICI zeigt im Falle einfacher Eigenwerte die quadratische Konvergenz 
auch fiir eine Variante des Jacobi-Verfahrens, bei der nicht die Forderung (2) 
gestellt wird; statt dessen werden alle Indexpaare 1,<k, in einem festen Zyklus 


von < (n — 1) Schritten durchlaufen. Seine oe lautet 


(17) M,, S V/2n(n — 2) exp(0,972n* A-1 my) s 
Mit unserer Methode ergibt sich 
Satz 4. Es sei 2y,< AS |a,—«,|; mit 1= 3 (n —1) gilt bei zyklischer Wahl 
der t,, k, 
a coe 
(18) ¥n&z \e—2-42. 


Hier haben wir den Beweis von Satz 2 nur geringfiigig zu 4andern. Die einmal 
gewonnenen 4, ,, werden fest beibehalten, weil wegen der zyklischen Wahl der 
t,, k, sicher durch jeden Schritt zwei neue a, ,, gewonnen werden. Man hat wieder 


| > (a, 34, a a,’ u)| <> a4, eee ee 
mit héchstens 2n—4 Elementen a,’,. Benutzung von (9) ohne Verwendung 
von (2) liefert hier statt (13) 
wr : ” a? v, m, Wee at 
Dar Fn — Mrinal S (2m — 4) mip FE + 2m, Te SY ay 
und analog zu der induktiven Herleitung von (11) an man 


Zl evfte : 
(19) ya wes en—a(4 Jal aa 


fiir 27 Elemente a,,,.. Nach der Schwarzschen Ungleichung ist 
v—1.- 7-1 
(2 my |Aeig rl) SS, me E toiot! 


nach (5) hat man wieder >’ ae io» nSir und wegen 2m, Sy,S7o weiterhin 


Sms 2” 


e=0 





Somit ergibt sich aus (19) fiir r=7, 
YS (2n— 4). yo os 
und daraus (18). 

Es ist zu bemerken, daB fiir beliebige zyklische Jacobi-Verfahren noch kein 
alilgemeiner Konvergenzbeweis vorliegt (hier brauchten wir 2y)< 4). Fiir spezielle 
Zyklenwahl, etwa zeilen- bzw. spaltenweises Vorgehen jedoch vgl. [4]. 

Es gelang mit der vorstehenden Methode nicht, fiir solche zyklischen Jacobi- 
Verfahren ein Resultat analog zu Satz 3 zu gewinnen. Richtet man den Zyklus 
jedoch gerade so ein, daB die ,,kritischen‘‘ Elemente am Anfang annulliert werden, 
dann gilt auch im Falle héchstens doppelter Eigenwerte Satz 4 im unveranderter 
Form. 
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Numerical integration of ordinary differential equations 
based on trigonometric polynomials 


By 
WALTER GAUTSCHI* 


There are many numerical methods available for the step-by-step integration 
of ordinary differential equations. Only few of them, however, take advantage 
of special properties of the solution that may be known in advance. Examples 
of such methods are those developed by Brock and Murray [2], and by DENNIS 
[4], for exponential type solutions, and a method by URaBE and MisE [5] designed 
for solutions in whose Taylor expansion the most significant terms are of relatively 
high order. The present paper is concerned with the case of periodic or oscillatory 
solutions where the frequency, or sorhe suitable substitute, can be estimated in 
advance. Our methods will integrate exactly appropriate trigonometric poly- 
nomials of given order, just as classical methods integrate exactly algebraic 
polynomials of given degree. The resulting methods depend on a parameter, 
v=hw, where h is the step length and w the frequency in question, and they 
reduce to classical methods if v->0. Our results have also obvious applications 
to numerical quadrature. They will, however, not be considered in this paper. 


1. Linear functionals of algebraic and trigonometric order 
In this section [a, b] is a finite closed interval and C*[a, b] (s 20) denotes the 
linear space of functions x(¢#) having s continuous derivatives in [a,b]. We 
assume C*[a, b] normed by 


s 
= () (¢)|. 
(1.1) lel = maxis) 


A linear functional L in C*fa, 6] is said to be of algebraic order p, if 
(1.2) L?=0 iy = 0, 1,..., 2); 


it is said to be of trigonometric order p, relative to period T, if 


(1.3) L1=Lcos(r 2% t) =Lsin(r 7 t) =o (y = 1,2,...,0). 
Thus, a functional L is of algebraic order # if it annihilates all algebraic poly- 
nomials of degree <#, and ‘it is of trigonometric order #, relative to period T, 
if it annihilates all trigonometric polynomials of order <# with period T. 
Functionals of trigonometric order # are comparable with those of algebraic 
order 2, in the sense that both involve the same number of conditions. The 
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relationship turns out to be much closer if we let L depend on the appropriate | 
number of parameters. In fact, consider functionals of the form 


(1.4) Lux=B,L,% +--+ + Bop Loy % + Lopii%, 


where L, (A=1) are fixed linear continuous functionals in C*[a, 6] and £, real 
parameters. Then the following theorem holds. 


Theorem 1. Let the functionals L, in (1.4) satisfy the following conditions: 

(i) L,4=0 (A=1,2,..:,26+4). 

(ii) There is a unique set of parameters, B,=B5,, such that the functional L in 
(1.4) ts of algebraic order 2p, that ts to say, 


x row index, A column index 
; det (L . ‘ 
(1.5) miele ip pegige 


Then, for T sufficiently large, there ts also a unique set of parameters, B,=B,(T), 
such that L is of trigonometric order p relative to period T. Furthermore, 


(1.6) B,(T) >fR as T+ 0. 


Proof. The main difficulty in the proof is the fact that in the limit, as T oo, 
equations (1.3) degenerate into one single equation, L1=0. We therefore trans- 
form (1.3) into an equivalent set of equations from which the behavior of the 
solution at T=oo can be studied more easily. 


In this connection the following trigonometric identities are helpful, 


r / 
sar * ; aie 

(4.7) sin a7 Zot wes (ry = 4, 2,.4,...), 

where g,, are suitable real numbers and o,,=+-0. The existence of such numbers 
is obvious, if one observes that sin?’ = =([(1—cosx)/2]’ can be written as a 
cosine-polynomial of exact order 7. Differentiating both sides in (1.7) gives also 

’ 
(1.8) sin””—* = cos= = >'1,,sin g x (y= 4,2, 3,..-), 


2 = 


where t,,=0¢,,/r, and in particular t,,=0,,= 0. 
Equations (1.3) are equivalent to 


Li=0, 
2 : 2 
L(1—cosr 2% t) =Lsinr 2% t=0 (y= 1, 2,..., 9). 


Because of assumption (i) the first of these equations is automatically satisfied. 
The remaining equations are equivalent to 


(1.9) Y o4¢L (1 — cos 9 22 #) = > teLsing 2% t=0 (r= 1, 2,...,p). 


e=1 e=1 











Nene nema taee tS = 


te eh te 


Eaves 
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Using (1.7) and the linearity of L we have 


4 
Doek(t — cos 9 4% t) = L Yo! — cos as t = L [sin®* (4 i). 


Similarly, using (1.8), we find 


r 
: 2% ,_ -2r—1 | a 
Di rel sing 27 t= L [sin (F t) cos 7 |. 


Therefore, letting 
Feit ae. id 
(1.10) “==, 
we can write (1.9), after suitable multiplications, as follows: 


L (ey cos “ 7 =0 


49 ‘ (sin ut \2r 
rest] -0 


(7 == 4,2, ..., 9). 


This represents a system of 2 linear algebraic equations in the same number 
of unknowns f,, the coefficient matrix and known vector of which both depend 
on the parameter u. We show that in the limit as w—>0 the system (1.11) goes 
over into the system of equations Li”=0 (r=1, 2, ..., 2). 

In fact, it is readily seen, by expansion or otherwise, that for any integers 
o=0, r21, as uO, 





d? [jsinut\?r-1 | ad? 27-1 

ae |(~a—) cos u | > aw 
(sinus) & pr 
dt? u ave ”’ 


the convergence being uniform with respect to ¢ in any finite interval. In par- 
ticular, 


























(ay cos ut — #’-*!| +0 
sinut\2" ey (w +0), 
(=: *) —t"'||>0 
uUu 
so that, by the continuity of the L,, also 
L, (a) cos 4 | —>L,?"-" 
(u — 0). 


L, (suse) —L, ff" 


From this our assertion follows immediately. 

Since the limiting system, by assumption, has a unique solution, %, the 
matrix of the system (1.11) is nonsingular for ~=0, and hence remains so for 
u sufficiently small. It follows that for sufficiently large T there is a unique 
solution, B,(T), of (4.11), satisfying (1.6). Theorem 1 is proved. 
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Remark 1. Assumption (i) in Theorem 1 is not essential, but convenient for 
some of the applications made later. The theorem holds without the assumption 
(i) if the functional L in (1.4) is made to depend on 24+1 parameters, 


(1.4’) L%=Polyox+ByLyx+---+BapLep % + Lapir%, 
and assumption (1.5) is modified, accordingly, to 

, x row index, A column index 
(t-5') Cae AEOTGRES ). 
The proof remains the same. 

Remark 2. For particular choices of the L, it may happen that the functional 
L can be made of higher algebraic order than the number of parameters would 
indicate. Even if the excess in order is a multiple of 2, this does not mean neces- 
sarily that a similar increase in trigonometric order is possible. For example, 


Lx=B (0) + x(1)—}$x'(0)—}2'(1), B=—1 


if of algebraic order 2, but in general cannot be made of trigonometric order 1, 


since 
sin ut sin 24% 1 a 
L ——— eee nein ha (1+ cos 2u) >0 (o< u< $). 
2. Linear multi-step methods 


Linear functionals in C! play an important réle in the numerical solution of 
first order differential equations 


(2.4) x’ = f(t, x), % (to) = Xp, 
in that they provide the natural mathematical setting for a large class of numerical 
methods, the so-called linear multi-step methods. These are methods which 


define approximations x,, to values x (¢)-+ mh) of the desired solution by a relation 
of the following form 
(2.2) ert ere tor +O tarr—2= Bp Xn+1 + By Xm t+ +++ + Be %n41—2) 

(n=k—1,k,k+1,...), 
where 

Xn =H (by + mh, 5p) 

Once k “starting” values x9, x%,,..., %,-, are known, (2.2) is used to obtain 
successively all approximations x,, (m=k) desired. 

The integer k> 0 will be called the index of the multi-step method, assuming, 
of course, that not both «, and f, vanish. (2.2) is called an extrapolation method 
if By=0, and an interpolation method if By=+0. Interpolation methods require 
the solution of an equation at each stage, because x,,,, in (2.2) is itself a function 
of the new approximation %,,,. 


It is natural to associate with (2.2) the linear functional 
. 2 
(2.3) Le=md (a, (to ++ (m+ 1—A)A) —hB, x'(tp+ (mn +1—A)A)] (Hp =1). 
=0 


The multi-step method (2.2) is called of algebraic order #, if its associated linear 
functional (2.3) is of algebraic order #; similarly one defines trigonometric order 
of a multi-step method. 
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Since any linear transformation ¢’=at-+b (a+0) of the independent variable 
transforms an algebraic polynomial of degree <# into one of the same kind, 
it is clear that (2.2) is of algebraic order # if and only if the functional 


: | 
(2.4) Dh = ¥ [a (b — a) — Bi 2'(k — 2) 


is of algebraic order #. Here, the parameter h has dropped out, so that the 
coefficients «,, 8, of a multi-step method of algebraic order do not depend on h. 
The situation is somewhat different in the trigonometric case, where a linear 
transformation other than a translation (or reflexion) changes the period of a 
trigonometric polynomial. By a translation, however, it is seen that (2.2) is 
of trigonometric order , relative to period T, if and only if 


& 
(2.5) L*x = 2 {or x[(k — A) h] — hB, x’ [(k — a) h}} 


is of trigonometric order # relative to period T. 

For a multi-step method to be useful it must be numerically stable, which 
above all imposes certain restrictions on the coefficients «, (see, e.g., [1, sec. 9]). 
In view of this we shall consider the «, as prescribed numbers satisfying the 
conditions of stability. Also they shall satisfy 


(2.6) Fmd gmt) 
A=0 


to insure algebraic and trigonometric order p=0. 

It is then well known ([J, sec. 6]) that to any given set of k+41 coefficients 
a, satisfying (2.6) there corresponds a unique extrapolation method with index k 
and algebraic order k. Letting therefore k=2 we can apply Theorem 1 to 
L=L", identifying 


2p 
(2.7) Lax=—hx'[(2p—A)A] (1SAS2p), Leyis = 2st, x [(2p — A) hi]. 


It follows that there exists a unique extrapolation method with even index 
k=2p and trigonometric order # relative to any sufficiently large period T. 
Again, as is well known, given k+1 coefficients «,, there corresponds a unique 
interpolation method with index k and algebraic order k+1. Letting now 
k+1=2, a similar application of Theorem 1 shows the existence, for T sufficient- 
ly large, of an interpolation method with odd index k=2—1 and trigonometric 
order # relative to period T. Furthermore, in the limit as Too, the resulting 
methods of trigonometric order ~ reduce to those of algebraic order 2. 


The essential parameter is actually not 7, but 4/T, as is seen if the conditions 


(4.41) of trigonometric: order # are written down for the functional L*. Since 





a: (=r cos 1 4 = (jay (27 cos? ut — 1), 


at u 

a ( mel de 2r(S mie cosut 
dt u u 

Numer. Math. Bd, 3 27 
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one finds? 
k ; 
by p,(See—A h) Es (27 cos*[u (k — A) h] — 1) 
4=0 
k , om 
as ym sin[u e— A) h] y 1 sais [a (k —2) i] ; 
k ; wan ‘ s ; 
ark ¥'p, (sinleh=a h] y * cos [u(# — a) h] = Sa, [see A) h] 
~~ i=0 


Dividing the first relation by h*’~", and the second relation by h?’, and letting 


an — 2% 
v=2uh= + h, 














one gets! 
Dm (zane 8 ay (2r cos® is (k — A) i ud 7 
(2.8) ve ds (2e2lten te J" cos | 5 (k — 4) 0}, 
ar Y" p ( 2a v) r cos lS (k — A) o| “ig De (2maiee— a v] g 


(vy =1,2,..., 9). 


We summarize our findings in the following 


Theorem 2. In correspondence to each set of coefficients a, with zero sum there 
exist unique sets of coefficients B,(v), BT(v) depending on the parameter 


v=2xh/T, 
such that for v sufficiently small, 
(2.9) Kyty + Oy Xt '* + Oey Xp 1-29 = h [Bi (v) %q4- +++ + Bo» (v) %n41-29] 
is an extrapolation method of trigonometric order p relative to period T, and 
Hypa t My %q +++ + Og5 1 Xr 0-2p 
= h[ Bs (v) nz + BE(v) Xm + Bz p—1 (v) Xn42-29| 


is an interpolation method of trigonometric order p relative to period T. The B,(v) 
solve the system of linear algebraic equations (2.8) with k=2p, By=O, the BF (v) 
solve the same system with k=2p—1 and with no restrictions on the B’s. As v->0 
the multi-step methods (2.9) and (2.10) reduce to those of algebraic order 2p, respec- 
tively. 


(2.10) 


3. Existence criterion for trigonometric multi-step methods 
Theorem 2 establishes the existence of trigonometric multi-step methods only 
for v=2zh/T sufficiently small. A more precise condition on v is furnished by 
the following 





1If y=1 the coefficient of 6, in the first relation, to be meaningful, must be 
defined as unity. 
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Theorem 3. Multi-step methods (2.9) and (2.10) of trigonometric order p, relative 
to period T, exist if 


(3.4) |v| < min (»,. 7) (v= 2xh/T), 


where v, is the smallest positive zero of the cosine-polynomial 

(p*+1)/2 J ; ! 
% (62> p+ 2 —m)cos(2m— 1) — (p odd) 
(3-2) Cy(v)=y *™ 


5% (6*— 3?) + 3m (— 5b —n)cosne (p even). 


Here, v,(m) denotes the number of combinations of p nonnegative® integers not 
exceeding 2p—1 which have the sum m. 


Proof. The linear functional associated with the extrapolation method (2.9) is 
2p 
Lx = 28; L,*+Lopi1%, 


where L, x= —hx'[(2p—A)h] (1S AS2p) and L,,,, is given such that L,,,,1=0. 
Similarly, 

2p—1 

L*x= > Bi Li x+Li,x 

A=0 
with L}=L,,,, Lz,1=0, is the functional associated with the interpolation 
method (2.10). It is apparent, therefore, that the conditions (1.3) of trigonometric 
order for these particular functionals give rise to a system of 2# linear algebraic 
equations in the unknowns £, and ff, respectively, the matrix of which in either 
case is given by 


vsin(2~ — 1) v vsin(2p—2)v —-«... ~—s usin 0 

— vcos(2p — 1)v —vcos(2p—2)v =~... — vcosv —v 

2v sin 2(2p — 1) v 2vsin2(2p—2)v ... 2vsin2v 0 

B(v)=| — 2vcos2(2p—1)v — 2vcos2(2p — 2)v ... —2vcos2v —2v 


jilasne~ He pusinp(2p—2)v... pvusinpv 0 
— pvcosp(2p —1)v — pucosp(2p — 2)v ... —pvcospuv — pu 


The instance v=0 (in which B is singular) is sufficiently dealt with by 
Theorem 2. Theorem 3 will therefore be proved if it is shown that B(v) is non- 
singular for all nonvanishing values of v satisfying (3.1). 

Replacing the trigonometric functions in B(v) by Euler’s expressions and 
applying a few obvious elementary operations on rows and columns of the 





2 In terms of partitions (more commonly used in combinatorial analysis) which 
involve positive integers with given sum, we have 
Vp (m) = Np_\(2P—1, m)+ 2, (2p—1, m), 
where 2,(/, m) denotes the number of partitions of m into k unequal parts not ex- 
ceeding /. 
a7" 
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resulting matrix, one shows that the determinant of B is equal to 

wah. wabe ... wi? wo? 

wht?) wet". eee wit} wert . 

det B(v) = (1) 27? #? v8? e-MAP—N #9) wht, wht, ... wh? wht] (w, =e). 
1 o> sseee 1 








The last determinant is a minor of the Vandermonde determinant 


u®? wet. ... wi? wo? 

eyes eee ee e Sent 

uw? wep... wt wh |=JJ(—w) JJ @—~), 
eee eres <a eS —_ OSo<es2p-1 

-_ e 








namely, up to the sign (—1)?, the coefficient of u? in the expansion along the 
first column. From the right-hand side it is seen that this coefficient is equal to 
(— 1)? 0, (Wo, Wy, ---,Wep—1) IT (w, — W,), 
0<0<es2p-1 

where o, denotes the p-th elementary symmetric function in 2% variables. Th«re- 
fore, ° 

det B(v) = (p!)2 27? #? v9? oP AP—Nir Gg (wo, w,,.--,Wep1) J] (w.—w,) 

; O0so<es2p-1 
(w, =e"). 

For the product in (3.3) we have 


II (w, — w.) = [] ato? JT [eh (e—9) #e — e—tle—o) #0) 


o<e@ o<@ o<e@ 


= (21)? @P—-1) eh (2P—-1*40 TT sin 2 (9 — a) v. 
o<e 


Also, 
Cy (We, 4, +--+, Ws »—1) = >’ eataat dy) iv, 


where the sum extends over all combinations (A,, A,, ..., A,) of p nonnegative 
integers not greater than 2p—1. Thus, 
_ det B(v) = (— 1)? (p!)2 22? @—-» y?? x 


(3.4) x [eH PID | ptt +40) TT sin d(9 — 0) v. 
OSo<es2p—1 


It is seen from this that B(v) for v-+0 is singular if and only if either the ex- 
pression in brackets or the product following this expression vanishes. 


' As regards the first expression we can write it in the form 


Sita p(3p—1)/2 - p(3p—1)/2 a 
ete Re-nise wm (ner= =F omy (v0) ol 80-80, 
n=p(p—1)2 n=p(p—1)/2 





oA rn 





pr Ree ee 
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with v,(m) as defined in Theorem 3. Consider first the case ~ even. Then, by 
a shift of the summation index, the last sum is seen to be 

pr/2 ; 
DX %(p?— $p +n) e**?. 
n= —pr/2 


Since the determinant (3.4) is real, this sum must be real too, which is only 
possible if 
»»(?— gp +m) =0,(6?— $p—m) (p even). 


Our sum then becomes 
pry 
(3.5) v, (p? — $6) +2 2% (p?9— 3p —n)cosnv (p even). 


Analogously, if p is odd, the sum in question is 


(p(2p—1)—1)/2 p(3 p—1)/2 
* ¥p(n) el—4P @P—A)}i0 
n=p(p—1)/2 n=(p(2p—1)+1)/2 


(p*+1)/2 
= z [», (p?— $¢+3-—7n) e—(2n—1 ive vy (p? —1p—}+4n) em 1) 10/2) 
n=1 


Since this again must be real we also have 


%»(P?—gp+e—")=%(P?—tP—F+) (p odd), 


_and our sum becomes 


(mre 1 1 v 
(3.6) a? % (b*— > b+ > — 2) cos (2m — 1) 2 (p odd). 


n=1 
Substituting (3.5) and (3.6) for the bracketed expression in (3.4) we finally obtain 


(3.7) det B(v) = (— 1)? (p!)2 2?” -2P+* v2? C (vy) J] sind (e—a)v, 
0s0<es2p-—1 


with C,(v) as defined in (3.2). 

Now, C, (v) +0 for 0<|v|<v, if v, is the smallest positive zero of C,. Also, 
the sine-product in (}.7) is certainly nonvanishing for 0<|v|<22/(2p—1). 
Therefore, det B(v) is nonvanishing for 

: 22 
0<|v\/< min (vp, ar ), 
which proves our theorem. 
For reference we list the cosine-polynomials C,(v) for p=1, 2, 3: 


= cos 
C, (v) = cos =. 
C,(v) = 1+ cosv + cos 2v, 


= v v v v v 
C3(v) = 3cos 5 + 3cos 3 > + 2cos § ' + cos 7 ; + cos9 “* 
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One finds easily that 
. Y4=2, y= y= > 
so that the bounds in (3.1) for p=1, 2,3 are respectively 2, 2/2, 22/5 
We also note from (3.2) that 
(3.8) 0<|v| < ra 


is a sufficient condition for nonvanishing of det B(v). 


4. Trigonometric extrapolation and interpolation methods of Adams’ 


Multi-step methods with 
%=—a,=—1, a,=0 (A> 1) 





type 


and maximal algebraic order for fixed index are called Adams methods. In 
this section we list methods of trigonometric order that correspond to Adams’ 
extrapolation and interpolation methods in the sense of Theorem 2. The 


coefficients B,(v) and A}(v) are obtained as the power series solution 


of the 


appropriate system of equations (2.8) where coefficient matrix and known vector 


are expanded into their Taylor series. 


Adams extrapolation methods of trigonometric order p 
2p 
Xnt1 = X%q_+ h 2 Boar) Xnz1-, (U= 2ah/T) 


1 1 


4 120 12 120 


Bu = 3(1— — v3 + oUt): Ais = — L (1+ t+ ott. 














2 
3 (1-34 Bv+.-), Bas = — 22-(1— hot + St +...) 


); 


Boi = 22 132” +992 708 | 21240 
Brs= 3) (1 + tt, B= — (1+ jot Sout); 
on El Ses aes) 
bas= — Tea (!— Ggeae + “saeae +) 
tam Sea ads Is) 
i aire Ld (1 2 So473 v2 soeers w+), 





Bag = 2877 (1- 10433 42, 20683 v4.) 


1440 5754 32880 


os a ee 53 gs, 19935 a...) 
Bas = 1440 (1+ 114 © t 2736” + ); 


6+ 4 € 2S. £ 2 2 & Bee © BO Se ws SS 











Numerical integration of ordinary differential equations 391 


Adams interpolation methods of trigonometric order p 


2p-—1 


Kniy=%,+h = BS a(v) Xn41—2 (v= 2ah/T) 





Pte= Bhi = 3 (14+ + att: “): 
be ay (t+ 5" + tas t$r4, n= (t as e+ = 60 peti) 
fem Sli fe Btn), ee flue hae Baten) 
f= Ge (i+ e+ Beet), 
f= SB Be ET 
Bia = — 2 (1 — 193 ys tome H+), 
Bis = a (1- ids re Cae Ae), 
B34 = — stan (1 + os" an eo Ape), 
Bis = 52, (1 oy seri A +-..); 


As shown in Section 3 the series for 8, , and B}, certainly converge for |v| <r, 
where 4.=2, %72=2/2, 73=22[5. 
We also note the explicit formulae 


Au = ste, — Bis = Bro = ate , 


5. Trigonometric extrapolation and interpolation methods of Stérmer’s type 
Linear multi-step methods are also used in connection with differential 


equations of higher order, in particular with second order differential equations 
in which the first derivative is absent, 
(5.1) x" = f(t, x), % (to) = %o, x' (to) = Xo. 
They take here the form 
(5.2) Xu pat Oty Xp tos + Op Xn ta—p = M2 (Boy Xn + By Xm +++ + Be Xn 41-2), 
Xm =f (ty + mh, Xq). 


The terminology introduced in Section 2 extends in an obvious manner to this 
new situation. With the multi-step method (5.2) there is now associated the 
functional 


k 
Lx=) [a x(to+ (mn +1—A\h)— APB, x" (tp +(mn+1—A)h)]  (%=1). 
A=0 
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Theorem 1 (with the modification mentioned in Remark 1 on p: 384) can then 
be applied to this functional provided that not all the values of «, are fixed in 
advance. Otherwise our assumption (1.5’) would not hold. Except for this 
provision, however, the construction of multi-step methods (5.2) of trigonometric 
order follows the same pattern as outlined in Sections 2 and 4 for first order 
differential equations. 

We content ourselves in this section with listing a few methods that result 
if one takes 
(5.3) “a =0O for A>2. 


In the algebraic case such methods of maximal order (for given index k) are 
called Stérmer methods (cf., e.g., [3, p. 125]). 


Stormer extrapolation methods of trigonometric order p 
2p—1 
nti + %p1(V) % + eye (V) %,1 = 1? 2 Boa?) %n41—a (v = 22h/T) 





%,=—2, He=1, By =1-— qe taett: +e} 
alot a2 = — 1 —1, 
r= 13 (1 — 8 B+ ot+--), B= — 2 (1— 208+ 37% +...), 
Brs= 5 (1+4 v4 7 ot y+.. I 

vals ZZ ys +. “), Ago = — Xi — 1, 

a” et: a “+ rn Ba: ), 

to lt Me Bw) 

Bu= — re (1- i Pip Ee +s) 





221 17521 ax 
Bas= aa ('+ Sax” "+ i000 + ); 


. + £68" 9 2 © €2403 we © S28 Desh, Oe 4 8 * 


Stormer interpolation methods of trigonometric order p 
2p—2 
Xia t Of1(V) %q + Hf2(V) X19 = ht Bp Snzi-a (v= 2ah/T) 


a =—2(1+ 5084 Shy Pal ae Pap 4, 


301 
360 


ats = —an,—i, Bto= 1+ v3+ = vit... 
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12 20 120 12 

af = —2(14 3 of + af, = — af, —4 
40 , 3 , 

e 19 221 5, 17521 +) 
Bio on (t+ e+ See + , 
ak _ 204 pe 79 2 11039 4 +++) 
B31 240 (1 459 © t 440160" + °') 
oe ee. 95 ya__ 103 a4 -) * = 34, ( at St, S08 ei’? 
Bes motte aia bed © Bi 20 \' 9° 2160" + ), 
ease, i BA Be ta...) 
Bi a0 | a. oe” }; 


8 eS SS ee Se eee Oe. we! 


The series for «»,,8,, converge if |v| <7, where 1,=00, r,=2/2, those for 
apa, Bpa converge if |v|<+r$ where rf=2/3, rf =2/2. This can be shown by 
reasonings similar to, but more complicated than, those in Section 3. The values 
of r,, 73 were not obtained because of the complexity of the calculations required. 


We also note the explicit formulae 





B = (2eete/ es eee Bh =- 2(1—Ccos v) _ 
si v , ” 2cosv—1’ 10°" ‘v8(2cos v—1) * 





6. Effect of uncertainty in the choice of T 

Multi-step methods of trigonometric order presuppose the knowledge of the 
period T of the solution, if it is periodic, or of a suitable substitute, if the solution 
is only oscillatory. Precise knowledge of this kind is usually not available in 
advance, so that one has to rely on suitable estimates of J. Since T enters only 
through the parameter v=22h/T and T=oco gives the classical multi-step 
methods, one expects that uncertainties in the value of T should not seriously 
impair the effectiveness of trigonometric multi-step methods (when applicable) 
as long as T is not significantly underestimated. 

It is instructive to study from this point of view the simple initial value 
problem 


(6.1) as (; ~ xz, (0) = (3): 


which has the solution 


“= (Si): 


sin ¢t 


Every multi-step method of trigonometric order =1 relative to period 22 is 
exact in this case, so that the example allows us to isolate the effect of inaccu- 


rately estimating the period: 
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Let us select Adams’ interpolation method of trigonometric order 1, which 
can be written in the form 





(6.2) fyi — ty +h 208 (ah tx) (V= 20/7). 
The correct choice of T is 2”, giving v=h. We consider now T to be some 
“estimate’’ of 27 and use 

4_ 22 


T 


Pa 


to measure the quality of the estimate (underestimation, if A> 1, overestimation, 
if A<1, precise estimate, if A=1). 


Letting 


1 tan 44 


ie be 


application of (6.2) to (6.1) then gives 


Oo —1 
Xnt1 = %q+ “(\ >) (%n41 + X,)> 


or else, collecting terms, 


1 t\. a re pede ree oT « 
=e a n+1 ~~ t 4 n? n+l 1+7? 2t 4—72 n° 


If we set 


t= tan}, 
we get 
a cos# — ma ' 
"th'\sind cos)” 
Obviously, 
1 Ah 
(6.3) # = 2arc tan (+. tan >) é 


The n-th approximation x, to the solution of (6.1) is thus obtained by rotating 


the initial vector x,= () n-times through the angle #, where # is given by (6.3). 
Therefore 0 
pays cosn#® 
*\sinn 8)’ 
which shows that the approximations have the correct amplitude, but phase errors 


(6.4) &, =n(b —h) = nhts arc tan (+ tan *) _ i}. 


If A=1 then ¢,=0, as we expect. In the limit as A—0 we obtain the phase 
error of the method of algebraic order 1; which in our example is the trapezoidal 
rule. The expression in curled brackets, as function of A, has a behavior as shown 
in Figure 1. It is seen from this, in particular, that the error in absolute value 
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is less than the error at A=0 for all A with O0<A<4A, where 4,>1. This means 
that in using the modified trapezoidal rule (6.2) we may overestimate the period 
as much as we wish, and even underestimate it 
somewhat, and still get better results than with 
the ordinary trapezoidal rule. On the other hand, 
the curve in Figure 1 also shows that the error 
reduction is not very substantial unless 4 is close 
to 1. If A= 41, for example, there is a gain of at 7 —eA 
least one decimal digit only if the estimated period 
differs from the true period by 5% or less. Fig. 1 


‘gta 














7. Numerical examples 


An important class of differential equations to which trigonometric multi-step 
methods may advantageously be applied is given by equations of the form 


(7.1) x” 4+ P(t) x=0, 
where P(¢) is a nearly constant nonnegative function, 
(7.2) P(t) = Py[1+ p()] 20 (¢ > %). 


Here, P, is a positive constant and #(¢) a function which is “‘small’’ in some 
sense for ¢>¢). 

Equation (7.1) may be considered a perturbation of x’’+P,x=0, the dif- 
ferential equation of a harmonic oscillator with angular frequency VP. This 
suggests the following values of T (and thus of v) as natural choices in methods 
of trigonometric order, 


(7.3) T=2n/VPR, v=hVB. 


If one is willing to select these values anew at each step of integration, one can 
improve upon (7.3) by using 


(7.4) T =T,=2a/VP¢,), v=v,=hVPt,) 


in the computation of x,,,;. 


Particularly favorable results are expected if ¢, is relatively large and #/(t) 
such that 


(7.5) flpW|dt<o, 


in which case it is known that x=c, cos VP,t+c, sin VPjt+(1) (c,, c2 constants, 
t-»oo) for every solution of (7.1). Our first example belongs to this type. 

Example 1. x" + (100 + 7a) *=0, 0<457510. 

The general solution can be expressed in terms of Bessel functions, x = 
c, Vt Jo (10) +c, Vt¥, (102). We single out the particular solution Vé Jg(40t) by 
choosing the initial values accordingly. Table 1 below shows selected results 
(every 50th value, using ty=1, h= .02) obtained by the Stormer extrapolation 
methods of algebraic order 2 and 4, and of trigonometric order 1 and 2, in this 
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order’. In the latter two methods the constant value (7.3). of T was used, that 
is, T=2/5, v= .2. | 

Table 1 reveals an average increase in accuracy of about three decimal digits 
in favor of the trigonometric extrapolation methods. This — it should be noted — 
is at practically no extra cost in computation, since the modified coefficients 
of the trigonometric methods, if (7.3) is used, need only be computed once, at 


Table 1. Stérmer extrapolation method of various algebraic and trigonometric orders. 
Example 1 with tj=1 




















t alg. ord. p=2 alg. ord. p=4 | trig. ord. p=1 trig. ord. p=2 exact 7D values - 
1 —.2459358 — .2459358 —.2459358 | —.2459358 | —.2459358 
2 2345901 .2354337 .236 205 5 .236 2115 236208 5 
3 —.142 5368 —.148 5247 —.1495871 | —.1495966 | —.1495937 
4 .001 887 5 "014 3880 0147257 .014 7349 .014 7338 
5 1393247 .123 4167 124 8068 124 801 5 -124 8002 
6 — .2330076 — .220 5650 —.2240619 | —.2240630 | —.2240592 
7 .2472935 | .246 1304 .251 1024 .2511101 2511049 
8 —.1773539 —.1924022 —.1972536 | —.1972659 | —.1972606. 
9 .047 0268 .077 1940 .079 8806 .079 8938 .0798900 
10 -099 305 5 .0620548 .063 2097 .0631997 | .0632007 





the beginning of the computations. If the choice (7.4) is made an additional 
2 decimal digit is gained on the average, the amount of computing being some- 
what larger than before. 

Stérmer interpolation methods of algebraic order 2 and of trigonometric 
order 1, applied to Example 1, gave results which are 10—20 times worse than 
the corresponding results in Table 1, the trigonometric method being, on the 
average, more accurate by 2} decimal digits. The interpolation method of 
algebraic order 4, however, is almost 100 times better than the corresponding 
extrapolation method. Nevertheless there is also here an improvement of about 
1% decimal digits in favor of the trigonometric modification. 

Larger values of ¢, would put trigonometric methods into an even more 
favorable light. As ¢, decreases from 1 to 0, trigonometric methods gradually 
lose their superiority. 

In our next example — a Mathieu differential equation — the relation (7.5) 
is not satisfied any more. 


Example 2. x'’+-100(1— «cos 2t)x=0, ty =0, %=1, %=0 (0<aS1). 
We integrated this equation for various values of « using the same methods 
and the same step length A= .02 as in Example 1. An independent calculation 
was done with the help of Nystrém’s method, which was also used to obtain 
starting values. Selected results (every 25th value) of the Stérmer extrapolation 
methods, in the case a= 1, are displayed in Table 2°. Trigonometric order, 
also in this example, is to be understood relative to period T=2/5. 





3 Calculations were done on ORACLE in 32 binary bit floating point arithmetic 
(the equivalent of about 9 significant decimal digits). The final results were rounded 
to 7 decimal places. — The author takes the opportunity to acknowledge the able 
assistance of Miss RutH BENson in performing these calculations. 
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The results in Table 2 follow a similar pattern as those above in Table 4, 
the main difference being a reduction, to roughly half the size, of the improvement 
of trigonometric methods over the algebraic ones. The average gain in accuracy 
is now about 1$ decimal digits. The remarks made above on interpolation 
methods hold true also in Example 2, except for the reduction just mentioned. 
Obviously, as « decreases to 0, trigonometric methods become increasingly 


Table 2. Stérmer extrapolation method of various algebraic and trigonometric orders. 
Example 2 witha=.1 























t alg. ord. p=2 alg. ord. p=4 trig. ord. p=1 | trig. ord. p=2' | exact 7D values 
oO 1.000 0000 1.0000000 1.0000000 1.000000 0 1.0000000 
0.5 .0767165 .069029 5 .068 5134 .069 1273 .069 208 5 
1.0 — .903 5098 —.905 6448 —.9089870 | —.9080120 | —.9084179 
1.5 —.7105151 — .690 865 6 — .694 2472 — .693 8453 | —.6939608 
2.0 .198 5482 .228 7643 .2304036 [ .2311394 .2309590 
2.5 -971 5966 -967 908 3 -976 463 3 -976 7822 -976 3699 
3.0 .255 2862 .204 5198 .206 084 2 .205 6667 .205 7667 
3.5 —.945 6869 —.950 5080 — .961 8456 — .961 3337 — .961 6794 
4.0 — .4833155 —.4221211 —.4260400 | —.4262622 | —.4265317 
4.5 -545 3242 .592 2666 .602 6736 .602105 3 .602 2367 
5.0 .951 7667 .926 3164 .9422702 .941 8659 .941 7373 


superior to algebraic methods. We have experienced only a slight decrease in 
this superiority when we let « increase from .1 to 1. 

It is anticipated that trigonometric methods can be applied, with similar 
success, also to nonlinear differential equations describing oscillation phenomena. 
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Alternating Direction and Semi-Explicit Difference 
Methods for Parabolic Partial Differential Equations 


By 
MILTON LEES 


1. Introduction 


In previous papers [12], [13], [14] the author developed a difference analogue 
of the energy method for determining the stability of difference approximations 
to partial differential equations with variable coefficients. The purpose of this 
paper is to apply this method to establish the unconditional stability of two 
types of difference approximations to parabolic differential equations, the (im- 
plicit) alternating direction methods of DouGLAs, PEACEMAN, and RACHFORD [3], 
[5], [25], and a new semi-explicit method. 

For the model problem, the first boundary value problem for the heat con- 
duction equation in a rectangular domain, the unconditional stability of the 
alternating direction methods was proved in [3] and [5]. The proof consists in 
showing, with the aid of Fourier analysis, that the von Neumann stability con- 
dition [4]; [11] is always satisfied. It can be shown [1], however, that this 
method of proof cannot be extended beyond the model problem. 

With the aid of the energy method we prove that the results in [3] and [6] 
can be extended beyond the model problem. We first treat, as a typical case, 
the heat conduction equation in a cylindrical domain with an essentially arbitrary, 
bounded base. Then we indicate briefly the extension to parabolic equations 
with variable coefficients. 

The second type of difference method we term the semi-explicit method, 
because it is an explicit method only for certain orderings of the net points. 
The idea for this difference method comes from the observation that there is 
a formal correspondence between parabolic difference equations and iterative 
methods for sdlving elliptic difference equations; the semi-explicit method cor- 
responds to the well known method of successive displacements [7]. 

The only other known example of an unconditionally stable explicit difference 
method is due to Du Fort and FRANKEL [6]. Their method, however, requires 
two lines'of initial data to start the solution, while the semi-explicit method is 
self-starting. On the other hand, both of these methods involve a similar local 
truncation error, and they must be subjected to a mild mesh ratio condition in 
order to be consistent [1/1] with the differential equation being approximated. 

For other applications of the energy method to the stability problem for 
partial difference equations, see FRIEDRICHS [8], KREIsS [9], Lax [10] and LEEs 
[12], [13], [14]. 

In a paper to follow, the energy method will be applied to the problem of 
determining the rate of convergence of iterative methods for solving elliptic 
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difference equations. It will include, in particular, a solution to this problem 
for the alternating direction methods relative to an arbitrary domain. 


2. Notation and Definitions 

In this section we describe certain preliminary concepts, necessary for our 
formulation of the difference schemes. We denote by 92 a bounded, open subset 
of Ey, with boundary Q. The Euclidean length of a point x= (%,, %2,..., Xv) CEy 
will be denoted by |x|. Let A=(h,, he, ...,4y)€ Ey have positive coordinates, 
and define G, to be the set of all (net) points (i, hy, ig he, ..., iy hy) C Ey the 1; 
being integers, positive, negative, or zero. Two points x; y€G, are called neigh- 
bors if |x —y| =h,, for some 1,4=1, 2,..., N. The points x€G,>Q all of whose 
neighbors belong to Q, the closure of 2, we denote by Q,. The points x€G,—2, 
with the property that at least one neighbor belongs to 2, we denote by Q,. 
Finally, we put Q,=2,0Q,. 

If M is any subset of Ey, we define @(M) to be the collection of all real- 
valued functions defined on Ey whose support* is contained in M. Clearly, 
€(M) is a real linear space for the usual operations. In particular, @(Q,) is a 
real finite-dimensional linear space, with dimension equal to the number of 
points in Q,. 

Let S=[0, cc) and S°=S— {0}. For each positive number k, the time 
step, we put 

S,= {t€ S|t=mk, m=0,1,...,} 
and S{=S,0S°. 

We shall approximate the solutions of differential equations by functions 
t->u(t), defined on S,, taking their values in ¢(Q,). 

If «€@(Ey) we define the linear translation operators E+‘ as follows: 


E+*[u] (x) = (x, ...,%; Ay, ..., %y). 


In terms of these we define the first order forward and backward difference 
operators: a 

V,u = h;'(E*u — u] 
and 

Vu =h7*[u — E-*ul. 


Evidently, we have the relation 


(2.4) E-*(V,u] =V,u. 
The first order centered difference operator V, is defined by 
(2.2) Vem ht Kle=s 7 [Ee E~*) u. 


Difference operators of higher order are defined in the obvious way, by repeated 
application of these formulas. 





* The support of a function / is the closure of the set {x| f (¥) +0}. 
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For a function tu (t) €@(Ey), defined in S,(resp. Sf), we use the notation 


u,(t) = k*[u(¢+ k) — u()] 
and 
u(t) = k>[u(t) — u(t — &)]. 


3. The Linear Space ¢(&,,) 
We provide ¢(Q,) with an inner product defined as follows: if u, v€é¢(Q,), 


(u, v) = hY ¥ u(x) v(x), 
xEG,R - 


where hY =h, h,... hy. Associated with this inner product is the norm |#jj= 


V(u, ). 


The formula 
1s. lt 
IMk=(D1%mb) 
defines another norm for @(Q,). 


Since @(Q,) is finite-dimensional, these norms are equivalent; that is, there 
exist two constants m and m, such that 


mul? S ult Sm [oP 


for every u€@(Q,). Of course, m and m, depend on the dimension of @(2,) and 
therefore on the (net spacings) h,. 
We may assume that Q, is contained in the rectangle 


R:4a;5%,55,, 
where a, and ),; are integral multiples of h;: 
Lemma 1. If u€@(Q,) then 
m |u|? < lui, 


where m is the minimal eigenvalue of the Laplace difference operator 





i 
(3.1) Ay (u) = DV Vim 
relative to the net region Q,, and 
N 
—2.i.9[ ah; 
m= PA, sin 2(b—a) |" 


Proof. The minimal eigenvalue m can be characterized (COURANT, FRIED-' 
Ricus, and Lewy [2]) as follows: 


ies elt 
O+uc (2) |u|? 


and therefore 


mc lel 


= |jeellt ’ 


for any «€@(Q2,), not identically zero. This proves the first part of the lemma. 
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Now let R,=R°4G,, where R° is the interior of the rectangle R. Denoting 
by m(R,) the minimal eigenvalue of A, relative to R,, we have 


my). it WE 
eh ee ey 
lel 


~ Ome © (Ap) ||? 
=m. 
But it is well known [7] that 


N "" 
m(R,) = 4 > h;* sin*| ee. 
i=1 


2(d;—4;) |’ 
and this completes the proof of the lemma. 
Lemma 2. If u€@(Q,) then 


[oft 4( 5 As*) buh 


‘= 


Proof. We have that 
h? V7, «|? = AN Py [m(a) — E~*[u] (x)}* 
< 2h" ¥ [u*(x) + E-“w] (2) 


xEG, 


= 4 uP. 


From this we obtain 
2 ad 7 vd —2 2 
luli =DUFiules4( 2a) bub, 


which is what we set out to prove. 
Remark. From lemma1 we see that m is bounded away from zero, inde- 
pendently of h: 


N 
42 (6; — ai)” 


On the other hand, m, is singular at h=0. This is to be expected since differen- 
tiation is an unbounded operator in Ly. 


4. Difference Methods 
In this section we describe the difference methods for the first boundary 
value problem for the parabolic equation 


(4.1) a s GU (xEQ, t> 0). 


The function ¢-> U(t) €¢(Q), for =0, is assumed to be sufficiently smooth and 
U(t) €C?(Q) for a suitable integer P. 

A function t—>u(t) €€(Q,), defined for ¢€ S, will be called admissible if 
“(0)=U(0), and w=U on Q,x S8. In general, U is not known in Q,x S2, 
so that we make the assumption: there exists a null sequence {h*} of net spacings 
such that 2,2 CR. We always assume that / belongs to the sequence {h'*}. 

Numer. Math. Bd. 3 28 
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With this assumption, an admissible function is uniquely specified in the com- 
plement of 2, x S? (relative to G,), in terms of the initial and boundary values 


of U. 
In the semi-explicit difference method for (4.1), one determines an admissible 


function ¢>wu(t) such that, in 2,xS,, the following difference equation is 
_ Satisfied : 


N > 
(4.2) u, = A,(u) —k NAV, 
i=1 


_ where A, is the Laplace difference operator defined in (3.1). 
The classical explicit difference equation 


(4.3) y= A, () 
is known to be conditionally stable [7], the condition being that the mesh ratio 
N 
A=k> h;* 
i=l 
satisfy 2A<1. We shall prove in section 5 that, by adding the “stabilizing” term 
N — 
— ®t » h;* V; u, 
i=1 


to (4.1), we obtain an unconditionally stable difference equation. 


It is not difficult to verify that (4.2) is an explicit difference equation when 
the net points in 2, are suitably ordered, for example, lexicographically. 
A straightforward application of Taylor’s theorem shows cer U satisfies 


the difference equation (4.2) to within a term of order k+|h|?+k Si 7". There- 
fore, [11] (4.2) is consistent with (4.1) if 


=o (3") 


-1 


as h—0. 

We now turn to the alternating direction methods. In the first alternating 
direction method for (4.1), one determines an admissible function ¢—>w(é) such 
that 


— N —_ 
ku (t) — u(t — k)) =YKu + DV, V, ult — &), 
i=2 
k [ul+) (2) — 4") (t)| = ie V;., uit (t) sans V;. 1Vj., u(t — k), 
for +=1,2,...,N—2, and 
k7[u(t) — u%— t)] = Vy Vy u(t) — Vy Vy u(t — k), 


where the auxiliary functions ¢—>u" (t) €¢(Q,), defined for ¢€ S®, are such that 
u)—u on 2, S%. We assume, of course, that N>2, otherwise the method is 
undefined. 
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This difference scheme, for N<3, was investigated in [5], where it was 
shown that the operation taking u(¢ — K) into u(t) involves the inversion of N Vp 
tridiagonal matrices, where p is the dimension of ¢(Q,). 

Following DouGLas and RACHFORD, we eliminate from these equations the 
auxiliary functions u™. Adding the equations, we obtain 


~ a 
(4.4) Uz = Vy Vy Uu 4- > V; V; un”, 
i=1 
From the last equation 
(4.5) u\N-!) —y4 —k Vy Vy U; « 


Similarly, solving the next to last equation for «~®), we find that 
u'N—) (t) = u(t) — kV y_yVy_.u%— (t) + RV y_yVy_y u(t — 2), 
which, in view of (4.5), becomes 
uN —) — 4 — K® Vy Vy up + K® Vy Vy Vy_y Vy 1 Up 


It is clear that, by continuing this process of elimination, we can determine 
the functions «") as a linear combination of u and certain of its difference quotients. 
When the resulting expressions for the u“ are inserted into (4.4), we find that 
u is a solution of a single difference equation of order 2N-+-1: 


(4.6) ue = Ag(w) +B (— 1 HDI), 


where the difference operators D/ are defined by 


Di (u) = ))* U;, V;, V;, ?? V;,V,,0, 
and the sum >'* is extended over the a different j-tuples (7, 7, ..., 7;) formed 
from the first N positive integers. 

The usual argument involving Taylor’s theorem shows that U satisfies (4.6) 
to within a term of order k+|h|*. Hence (4.6) is consistent with (4.1). 

For the second alternating direction method we restrict ourselves to the 
case N=2. The method consists in determining an admissible function ¢—>u (t) 
such that, in Q, x Sf, 

2k [v(t) — u(t — )] =FK,0(0) + Haut — 2) 
and wn 
2k4[u(t) —v(t)] =YAKre)+V%,V.u(t), 


the auxiliary function ¢->v(t)€@(Q,), defined for ¢€ S%, being such that u=v 
on 2,xS?. 

Following PEACEMAN and RACHFORD, we eliminate the function v between 
these equations and find that u satisfies the fourth order difference equation 


> = on 
(4.7) uz = Ay(u) — 5 Ay (up) — =H, 0a Vou 


As before, we see that U satisfies (4.7) to within a term of order k?+-|h|?. 
Numcr. Math. Bd. 3 28a 
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In the following sections we shall prove that these difference equations are 
unconditionally stable in the following sense: if t—wu(t)€@(Q2,), t€S,, is a 
solution of (4.2), (4.6), or (4.7), then 


“(= Cu (o)h, 
where C depends only on N and the mesh ratio A=h( h;*). 
j=1 


1 


5. Stability of the Semi-Explicit Method 


Before stating the main theorem of this section, we prove several lemmas. 
These will be seen to be difference analogous of the usual quadratic differential 
identities and inequalities which are basic to the energy method. 


Lemma 3. The operators V, and —V, are adjoints for functions in €(Q,); 
that is, for any v and w in @(Q,) 


(v, V,w) = — (V,v, w). 
Proof. We have the identity 
(5.4) vV;,w=V,[E~*(v) w] — E-*(V,v) w. 
By (2.1), E-‘(V,v)=V,v. Since v, w€E(Q,), 
DV,[E-‘(v) w] =0, 


xEG, 
and we conclude from (5.1) that 


hN Xv V,0 = —h® (V0) w, 


xEG, xeG, 
which is equivalent to the conclusion of the lemma. 
Lemma 4. If u€@(Q,) then 


(u, A, (u)) = — uff. 
Proof. Taking v=u and w= Vu in lemma 3, we find that 
(u, V,V;u) = — |ViulP, 
from which the desired result follows, by summation with respect to 1. 
Lemma 5. For any function t—u(t)€@(Q,), tC Sx, we have 


2(u, a) = (m|P), — 2a 
2 (u, uz) == («Pp + &llmzP. 


Proof. These identities are immediate consequences of 


and 


2u u, = (u*), — k(u,)* 
and 
2u uz = (w*); + k(uz). 


(See [14}.) 








a 





ee, OU 




















see, OO — 
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Lemma 6. I/ u€@(Q2,) then 
N “ 
2(u, DA; Vu) = 2 |. 
i=1 

Proof. From lemma 3, with v=w=u, we obtain the relation 

(u, Vu) = — (V,u, »). 

Since V; — V, =h;V,V,, we conclude from this that 
2(u, Vim) = —h,(u, V;V,u). 


Consequently, 
N 


2(u, DLA; V,; u) = — (u, A,(u)) 


t=1 
= luff, 
by lemma 4. 


Lemma 7. For any function t—u(t)€@(Q,), t€S,, we have 
2(u,, 4, (u)) = — (lf), + & le [t- 
Proof. From lemma 3 
2 (m4, V;V; 4) = — 2(V,u,, V;u) 
= — (Wom), + 21, a, 


by lemma 5. The result follows by summation over 7. 
N 
Lemma 8. Let u= ( Dai). Then for any function t—>u(t)<@(Q,), t€ Sy, 


we have os 


N 
-1p9 1 
(2 (uD hit Hom) Senn + La luk, 


i=1 
where e>0 is arbitrary. 


Proof. From lemma 3 
a N 
(u, > 47" 7, u,) = (1, 3 Az" Vu). 
i=1 \ i=l 
Applying Schwarz’ inequality to the right side of this, we obtain 
a N 
(u, 3 Ai? Ham) < [mal | 3 Ai? Vm] 
‘ tal i=l 
N — 
=P Lead 


by the triangle inequality and the fact that V7, «|| = |V; «|. 
Using Schwarz’ inequality again, we find that 


N - 
(u, 2 Ac" Fm) < bade leh 





406 MILTON LExs: 


To the right side of this inequality we apply the generalized arithmetic-geometric 
mean inequality: 


(5.2) 2abeSa*+ 0 (e>0), 


to obtain the desired inequality. 


Theorem 1. Let the function tu (t) €@(Q,), t€ S,, be a solution of the semi- 
explicit difference equation (4.2). Then 


t—k 
[uP + &E [unlit < (1+ 221+ 2) Ju (oP, 


which implies that (4.2) is unconditionally stable. 


Proof. The difference equation (4.2) is satisfied only in 2,xS,. But since 
u(t) €@(Q,), w vanishes on Q,x5S,, and hence we may form the inner product 
of’ (4.2) with u to get 


N _— 
(u, my) = (u, Ay(u)) — &(u, DAFF. my), 


valid for ¢€ S,. From this and lemmas 4, 5 and 8, we obtain, after multiplication 
by 2, the inequality 


5.3) (le |?), — 2 ley? + 2 lool S © 2 ye Io, |? + 
1 
+1 kunt. 
If we choose ¢ so that k w=e, then (5.3) becomes 


(5.4) (\ul*), — (1+ Kp?) fry + [ul <o. 


Similarly, we may form the inner product of (4.2) with u, to obtain 


a ae 
[elt = (, An(u)) — (my, 22054 Fem): 
In view of lemmas 6 and 7, this becomes 
2 ||, [? = — (lft). 
When this result is combined with (5.4), we obtain the inequality 


(Init), + 1+ et) (Inf), + [ult so. 


Since 


eS (lu) = [4 OF — MOP 


we have from this that 


; t—k 
JMOP+ &>' [uC <u Cp + * (1+ a) [ut 


since ku?=A. The desired result follows by applying lemma 2 to the last term. 








Van. 











van. 
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If we denote by eé the error U — u for the semi-explicit method, then e(0)=0, 
and e(t)€¢(Q,) for ¢€S,. Also, é satisfies, in 2, S,, the difference equation 


le 
6, = A,(e) —k DA; V,e,+ T, 


t=1 


where the function ¢— T(¢) €@(Q,) is the local truncation error. It satisfies 
t—K j N 
(eZ 17 oe) =0(k+ [alt + Yas"), 
y= as 


where the constant implied in this relation is independent of k, h and 4. 
The following result can be proved along the lines of theorem 1. 


Theorem 2. The error e=U —u for the semi-explicit method for (4.1) satisfies 
the inequality 


t—k t—k 
leOP +e Lies Me DITO, 
3a as 
where 


2 2 
Ae 2 ~<. 
M = —+ kh + 2k > h;*. 


i=1 


Proof. As in the proof of theorem 1, we obtain 


(lelP). — Ale |? + 2elt Se hme, + — kweli 
(5-5) + 2(e, T). 


In view of Schwarz’ inequality and (5.2), with « replaced by e¢’, we have 
2(¢, T) Se’fele ++, ITP. 
According to lemma 1, m |le|? < |elf, so that 
> wees 1 ire 
2(e, T) = —llelt + — ITP, 
and when this is combined with (5.5), we obtain 
" k : 
(lel)? — A(t + eka + (2— a — ©) lel 
1 
<— ; 2 
<1 \7p. 
We now choose « and e’ so that 2ku=e and 2e’=m. Then 


(5.6) (lel), — &(1-+ 24) Jer? + lel S — ITP. 


As before, we have 
lle? = — 2 (lel). + (@, 7) 


which, after invoking Schwarz’ inequality, becomes 


lel? = — (lelP). + I71P- 
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This combined with (5.6) gives 
(lel), + (1 + 24) (Je). + lets |= + A(1+ 2a] ITE. 


from which the desired result follows, since ||¢(0)| = |¢ (0), =O. 


6. Generalizations 


We now indicate briefly how the results of the preceding section can be 
extended to parabolic equations of the form 


N 
aU 7] ij oU 
(6.1) Ot a 2 ae (x, t) ae 
for x€Q2 and 0<tSt). We assume that a;;=a;; and that, for x€Q, Ostsh, 
N 
a|é|?= 2 a'"(x, 1) E: 6) = o|é|?, 
1,j= 


where é is any real N-vector and 9, g,>0. 
We approximate (6.1) by the semi-explicit difference equation (see (2.2)) 


N =_ ss N ~ s. = 
u, = DV, (a V;u) + 2 V,(a"' Vu) — 
(6.2) = ops 


N 
= h 2 (02+ ahi’) Vi; m,, 
where ‘ 
a*(x, t) =a'(m, ey G+ 2, tebe xy, t) 
and 





a | . 


O<itst, 


Denote by L,(u) the sum of the first two terms on the right side of (6.2). 
It can be shown that 
(6.3) (u, Ly (u)) = — [@ +O(|h])] ml, 
for all uE€¢(Q,). . 

Similarly, for any function ¢—>u (t) E¢(Q,), 


(u,, L,(u)) < (Au) + 05 |e li + 








(6.4) : 
7 (02 +|A| @1) I, |? 
where 
= sup | 2a" 
03 eS nab Ot ’ 
O<tst, 


and Au is bounded, both above and below, by a constant multiple of 
[1-+O(k+|h|)] ml. 




















ied 6 ee 


sae eee 
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With the aid of the inequalities (6.3) and (6.4) the arguments employed in 
theorems 1 and 2 can be carried over to prove that the semi-explicit difference 
equation (6.2) is unconditionally stable, provided & and |h| are sufficiently small. 


7. Stability of the First Alternating Direction Method 
For 7>1 put 
ul; = (2* WV, --- Vigrel)’, 
for u€@(2,). Then we have 
Lemma 9. If u€@(92,) then 


N . : . N . 
(u, > (—1)/+4 # Di(u)) = — > aif. 
j=2 j=2 
Proof. From the adjointness of the operators V; and — V, we have, for 1<7<j, 
(4, V;,V;,...0,Vi,") = — (Vu, 0,,V;,...Vi,... ViVi, 0). 
From this we obtain the relation 
(u, V;,V;,... Vig Vi,u) = (= 1) V,,... Gym. 
Summing both sides of this relation over the'(*) j-tuples, we find that 
{u, D?(u)) = (— 1) ul. 


The desired result follows from this by multiplication by (—1)/+?A/ and sum- 
mation over 7. 


The arguments of lemmas 7 and 10 can be employed to prove the 
Lemma 10. For any function t->u(t)€€@(Q,), t€ S,, we have 


N N 
a(u, > (— 4) a Di ur) = — 2 (uel )e 


j=2 
N : 
— 3 a ol 
Theorem 3. I} the function t—u(t)€@(Q,), t€ S,, is a solution of the dif- 
ference equation (4.6), then 
t 
InP + 2k tue s chu or. 
n= 
where 
c= (1+ 4A)" — 4A. 


Hence, the first alternating direction method is unconditionally stable. 
Proof. Since u(t) €¢(Q,) for each ¢€ S?, we have 


N . . . 

> (— 1) Ai Di uz), 
j=2 

valid for ¢¢ S%. Using lemmas 4, 5, and 10, this becomes 


N a 
(Ne P)e + Ale B+ 2 el +2. (le) = — 2 oer 
j-3 . 


(u, uz) = (u, A, u) + (x, 
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Dropping the second term on the left and the negative term on ‘the right, we 
find that 


t N 
(72 MOP +24 E enh s [woe + & Hl w(oof. 


But, from lemma 2, we find that 
Hi | (0); = L* |Vi, --- Vi, (0)? 
< 4)! | (0) |? D* 7? ... 45" 
<4 juconpai("), 
where 
4= max kh;*. 
Therefore, 
> Ju) s [1+ 44) — 4A — 1] [u(OyP 
 -s[-+4a)"— 142] Ju (op 
and this, together with (7.2), completes the proof of the theorem. 


As before, we can prove the 
Theorem 4. If e=U —u 1s the error for the first alternating direction method, 


then 
leOR+e D les + & S ITP. 
n=k n=k 


where t->T(t) €(Q,) is the local truncation error, and T=O(k?+-|h|?). 
Similar results can be proved for parabolic equations of the form 
N 


oU a ii oU 
(7.3) “a ” he (a (x, t) ae 


8. Stability of the Second Alternating Direction Method 
Lemma 11. For any function t-u(t) €@(Q,), t€ S,, we have 
, 2 (uz, Ayu) = — (\|ult)z — 2 lel 
The proof is similar to that of lemma 7 and therefore will be omitted. 


Theorem 5. If the function t—u/(t)€¢(Q,), t€ S,, is a solution of the dif- 
ference equation (4.7), then 


[uO + 24 > full S [ag — 82+ (1-4 40)4 [WOOP 


where C=} if 4451 and C=4A—} if 4421. Hence, the second alternating 
direction method is unconditionally stable. 
Proof. From (4.7) we have, as before, that 


(u, uz) = (u, Ayu) — 4. (u, Ayu) 


— «ARR Mu). 
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In view of lemmas 4, 5, and 10, this becomes 
(Ie); + se +2 oe = 5 (B+ 
Weel — A (ll), — pg. 


Taking the inner product (4.7) la u;, we find that 


(8.2) due = — 5 (Weel) fee 
We now multiply (8.2) through by 2¢ and add the result to (8.1) to obtain 
(lu *)z + (20 + 1) be lee® + — + (& — 3) (lle fh) 
5 Wuelt — (mB). 


url S 4A ur, 


(8.3) 


According to lemma 2, 


so that (8.3) implies that 
(Wee P)e + (20 +1 — 4A) Aly + 2 Mult + (6— 3) e(\ult)e + 4° (lulz So. 


In view of the definition of £, we have from this that 


Ju QP +24 > ju (nf <u (oyf + (¢— 3) edu cot + ** ju onle, 


n=k 
and this, with the aid of lemma 2, gives the desired resulc. 
Similarly, we have -” 


Theorem 6. // e= U — u is the error for the second alternating direction method, 
then 


leQP+A > jes (2 +2)4 > ITP, 
yok n=k 


where € is defined in theorem 5, and t-—>T(t)€@(Q,) is the local truncation error: 
T =O(k? +|h|?). 

Similar results can be proved for the parabolic equation (7.3). 

The work of this paper was done at the AEC Computing and Applied Mathe- 


matics Center, Institute of Mathematical Sciences, under Contract AT (30—1)—1480 
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